featuretools.EntitySet#
- class featuretools.EntitySet(id=None, dataframes=None, relationships=None)[source]#
存储 entityset 的所有实际数据和类型信息
- id#
- dataframe_dict#
- relationships#
- time_type#
- 属性
metadata
- __init__(id=None, dataframes=None, relationships=None)[source]#
创建 EntitySet
- 参数:
id (str) – 与此实例关联的唯一标识符
dataframes (dict[str -> tuple(DataFrame, str, str, dict[str -> str/Woodwork.LogicalType], dict[str->str/set], boolean)]) – DataFrame 字典。条目格式为 {DataFrame 名称 -> (DataFrame, 索引列, 时间索引, 逻辑类型, 语义标签, make_index)}。注意只需要 DataFrame。如果提供 Woodwork DataFrame,则任何其他参数将被忽略。
relationships (list[(str, str, str, str)]) – DataFrame 之间的关系列表。列表项是格式为 (父级 DataFrame 名称, 父级列, 子级 DataFrame 名称, 子级列) 的元组。
示例
dataframes = { "cards" : (card_df, "id"), "transactions" : (transactions_df, "id", "transaction_time") } relationships = [("cards", "id", "transactions", "card_id")] ft.EntitySet("my-entity-set", dataframes, relationships)
方法
__init__
([id, dataframes, relationships])创建 EntitySet
add_dataframe
(dataframe[, dataframe_name, ...])将 DataFrame 添加到 EntitySet,并附带 Woodwork 类型信息。
add_interesting_values
([max_values, ...])查找或设置分类列的有趣值,用于生成“where”子句
add_last_time_indexes
([updated_dataframes])计算每个 DataFrame 的最后时间索引值(观测到实例或其子级的最后时间)。
add_relationship
([parent_dataframe_name, ...])在 entityset 中的 DataFrame 之间添加新的关系。
add_relationships
(relationships)向 entityset 添加多个新关系
concat
(other[, inplace])将 entityset 与另一个 entityset 合并,创建一个包含两者组合数据的新 entityset。
find_backward_paths
(start_dataframe_name, ...)一个生成器,生成起始 DataFrame 和目标 DataFrame 之间的所有向后路径。
find_forward_paths
(start_dataframe_name, ...)一个生成器,生成起始 DataFrame 和目标 DataFrame 之间的所有向前路径。
get_backward_dataframes
(dataframe_name[, deep])获取与给定 DataFrame 有向后关系的 DataFrame
get_backward_relationships
(dataframe_name)获取给定 DataFrame 作为父级的关系。
get_forward_dataframes
(dataframe_name[, deep])获取与给定 DataFrame 有向前关系的 DataFrame
get_forward_relationships
(dataframe_name)获取给定 DataFrame 作为子级的关系
has_unique_forward_path
(...)从起点到终点的向前路径是否唯一?
normalize_dataframe
(base_dataframe_name, ...)从现有列的唯一值创建新的 DataFrame 和关系。
plot
([to_file])创建 EntitySet 的类似 UML 图的图形。
query_by_values
(dataframe_name, instance_vals)查询具有给定值的列的实例
replace_dataframe
(dataframe_name, df[, ...])替换 EntitySet 表的内部 DataFrame,同时保持 Woodwork 类型信息不变。
reset_data_description
()set_secondary_time_index
(dataframe_name, ...)使用 DataFrame 名称设置 EntitySet 中 DataFrame 的二级时间索引。
to_csv
(path[, sep, encoding, engine, ...])将 entityset 以 CSV 格式写入磁盘,位置由 path 指定。
to_dictionary
()to_parquet
(path[, engine, compression, ...])将 entityset 以 parquet 格式写入磁盘,位置由 path 指定。
to_pickle
(path[, compression, profile_name])将 entityset 以 pickle 格式写入磁盘,位置由 path 指定。
属性
dataframes
metadata
返回此 EntitySet 的元数据。