featuretools.EntitySet#

class featuretools.EntitySet(id=None, dataframes=None, relationships=None)[source]#

存储 entityset 的所有实际数据和类型信息

id#
dataframe_dict#
relationships#
time_type#
属性

metadata

__init__(id=None, dataframes=None, relationships=None)[source]#

创建 EntitySet

参数:
  • id (str) – 与此实例关联的唯一标识符

  • dataframes (dict[str -> tuple(DataFrame, str, str, dict[str -> str/Woodwork.LogicalType], dict[str->str/set], boolean)]) – DataFrame 字典。条目格式为 {DataFrame 名称 -> (DataFrame, 索引列, 时间索引, 逻辑类型, 语义标签, make_index)}。注意只需要 DataFrame。如果提供 Woodwork DataFrame,则任何其他参数将被忽略。

  • relationships (list[(str, str, str, str)]) – DataFrame 之间的关系列表。列表项是格式为 (父级 DataFrame 名称, 父级列, 子级 DataFrame 名称, 子级列) 的元组。

示例

dataframes = {
    "cards" : (card_df, "id"),
    "transactions" : (transactions_df, "id", "transaction_time")
}

relationships = [("cards", "id", "transactions", "card_id")]

ft.EntitySet("my-entity-set", dataframes, relationships)

方法

__init__([id, dataframes, relationships])

创建 EntitySet

add_dataframe(dataframe[, dataframe_name, ...])

将 DataFrame 添加到 EntitySet,并附带 Woodwork 类型信息。

add_interesting_values([max_values, ...])

查找或设置分类列的有趣值,用于生成“where”子句

add_last_time_indexes([updated_dataframes])

计算每个 DataFrame 的最后时间索引值(观测到实例或其子级的最后时间)。

add_relationship([parent_dataframe_name, ...])

在 entityset 中的 DataFrame 之间添加新的关系。

add_relationships(relationships)

向 entityset 添加多个新关系

concat(other[, inplace])

将 entityset 与另一个 entityset 合并,创建一个包含两者组合数据的新 entityset。

find_backward_paths(start_dataframe_name, ...)

一个生成器,生成起始 DataFrame 和目标 DataFrame 之间的所有向后路径。

find_forward_paths(start_dataframe_name, ...)

一个生成器,生成起始 DataFrame 和目标 DataFrame 之间的所有向前路径。

get_backward_dataframes(dataframe_name[, deep])

获取与给定 DataFrame 有向后关系的 DataFrame

get_backward_relationships(dataframe_name)

获取给定 DataFrame 作为父级的关系。

get_forward_dataframes(dataframe_name[, deep])

获取与给定 DataFrame 有向前关系的 DataFrame

get_forward_relationships(dataframe_name)

获取给定 DataFrame 作为子级的关系

has_unique_forward_path(...)

从起点到终点的向前路径是否唯一?

normalize_dataframe(base_dataframe_name, ...)

从现有列的唯一值创建新的 DataFrame 和关系。

plot([to_file])

创建 EntitySet 的类似 UML 图的图形。

query_by_values(dataframe_name, instance_vals)

查询具有给定值的列的实例

replace_dataframe(dataframe_name, df[, ...])

替换 EntitySet 表的内部 DataFrame,同时保持 Woodwork 类型信息不变。

reset_data_description()

set_secondary_time_index(dataframe_name, ...)

使用 DataFrame 名称设置 EntitySet 中 DataFrame 的二级时间索引。

to_csv(path[, sep, encoding, engine, ...])

将 entityset 以 CSV 格式写入磁盘,位置由 path 指定。

to_dictionary()

to_parquet(path[, engine, compression, ...])

将 entityset 以 parquet 格式写入磁盘,位置由 path 指定。

to_pickle(path[, compression, profile_name])

将 entityset 以 pickle 格式写入磁盘,位置由 path 指定。

属性

dataframes

metadata

返回此 EntitySet 的元数据。