API 参考#
演示数据集#
|
返回零售实体集示例。 |
|
返回模拟客户数据的数据框 |
|
下载、清理和过滤 2017 年的航班数据。 |
|
加载澳大利亚日最低气温天气数据集。 |
深度特征合成#
|
根据数据框字典和关系列表计算特征矩阵和特征。 |
|
返回两个原语列表(转换和聚合),其中包含可应用于特定目标数据框以创建特征的原语。 |
时间差#
|
表示时间的差异。 |
时间工具#
|
在输入截止时间和实例 ID 集合之前,创建一组等间隔的截止时间。 |
特征原语#
原语类型#
|
基于该数据框中一个或多个其他特征的数据框特征。 |
|
聚合原语#
|
计算列表中所有值是否为 'True'。 |
|
确定列表中是否有任何值为 'True'。 |
|
计算连续事件之间的平均秒数。 |
|
确定总值数,不包括 NaN。 |
|
计算高于平均值的值的数量。 |
|
确定低于平均值的值的数量。 |
|
确定大于可控阈值的值的数量。 |
|
确定位于内部的观测值的计数 |
|
确定落在特定范围内值数量。 |
|
确定小于可控阈值的值的数量。 |
|
确定位于外部的观测值的数量 |
|
确定落在特定范围之外值数量。 |
|
计算分类列的熵 |
|
确定列表中的第一个值。 |
|
确定列表中的最后一个值。 |
|
计算最大值,忽略 NaN 值。 |
确定输入中连续 False 值的最大数量 |
|
|
确定输入中连续负值的最大数量 |
|
确定输入中连续正值的最大数量 |
确定输入中连续 True 值的最大数量 |
|
|
确定输入中连续零值的最大数量 |
|
计算值列表的平均值。 |
|
确定值列表中间的值。 |
|
计算最小值,忽略 NaN 值。 |
|
确定最常重复的值。 |
|
确定 n 个最常见的元素。 |
|
确定高于平均值的最长子序列的长度。 |
|
确定低于平均值的最长子序列的长度。 |
|
计算 True 值的数量。 |
|
确定不同值的数量,忽略 NaN 值。 |
|
确定 True 值的百分比。 |
|
计算分布与正态分布的差异程度。 |
|
计算相对于平均值的离散度,忽略 NaN。 |
|
计算总和,忽略 NaN。 |
|
计算自第一个日期时间以来的经过时间(秒)。 |
|
计算自最后一个日期时间以来的经过时间(默认为秒)。 |
计算自最后一个 False 值以来的时间。 |
|
计算自最大值出现以来的时间。 |
|
计算自最小值出现以来的时间。 |
|
计算自最后一个 True 值以来的时间。 |
|
|
计算列随时间变化的趋势。 |
转换原语#
二元转换原语#
|
对两个列表进行元素级相加。 |
|
将标量添加到列表中的每个值。 |
|
将标量除以列表中的每个值。 |
|
将列表中的每个元素除以标量。 |
|
确定一个列表中的值是否等于另一个列表。 |
|
确定列表中的值是否等于给定标量。 |
|
确定一个列表中的值是否大于另一个列表。 |
|
确定一个列表中的值是否大于或等于另一个列表。 |
|
确定值是否大于或等于给定标量。 |
|
确定值是否大于给定标量。 |
|
确定一个列表中的值是否小于另一个列表。 |
|
确定一个列表中的值是否小于或等于另一个列表。 |
|
确定值是否小于或等于给定标量。 |
|
确定值是否小于给定标量。 |
|
计算标量除以列表中每个元素的模数。 |
|
对两个列表进行元素级取模。 |
|
计算列表中每个元素除以给定标量的模数。 |
|
对两个布尔值列表进行元素级相乘。 |
|
对数值列表和布尔列表进行元素级相乘。 |
|
将列表中的每个元素乘以标量。 |
|
确定一个列表中的值是否不等于另一个列表。 |
|
确定列表中的值是否不等于给定标量。 |
|
从给定标量中减去列表中的每个值。 |
|
对两个列表进行元素级相减。 |
|
从列表中的每个元素中减去标量。 |
组合特征#
|
确定值是否在提供的列表中。 |
|
对两个列表进行元素级逻辑 AND 运算。 |
|
对两个列表进行元素级逻辑 OR 运算。 |
|
对布尔值取反。 |
累积转换原语#
|
计算列表中当前值与前一个值之间的差值。 |
|
计算列表中当前日期时间与前一个日期时间之间的时间差。 |
|
计算自列表中前一个条目以来的时间。 |
|
计算累积计数。 |
|
计算累积求和。 |
|
计算累积平均值。 |
|
计算累积最小值。 |
|
计算累积最大值。 |
日期时间转换原语#
|
计算给定年龄(以年为单位)的浮点数 |
|
如果存在,将实例时间转换为假日名称。 |
|
确定日期时间的时区。 |
|
确定日期时间中的月份日。 |
|
确定给定日期时间在年内的序数日 |
|
确定给定日期时间所在月份的天数。 |
|
计算给定假日之前或之后的天数。 |
|
确定日期时间的小时值。 |
|
确定给定日期时间是否是联邦假日。 |
|
确定日期时间列的 is_leap_year 属性。 |
|
确定日期时间是否落在可配置的午餐时间(24小时制)内。 |
|
确定日期时间列的 is_month_end 属性。 |
|
确定日期时间列的 is_month_start 属性。 |
|
确定日期时间列的 is_quarter_end 属性。 |
|
确定日期时间列的 is_quarter_start 属性。 |
|
确定日期是否落在周末。 |
|
确定日期时间是否落在工作时间(24小时制)内。 |
|
确定日期是否落在年末。 |
|
确定日期是否落在年初。 |
|
确定日期时间的分钟值。 |
|
确定日期时间的月值。 |
|
确定日期时间在日内的部分。 |
|
确定日期时间列所属的季度(1、2、3、4) |
|
确定给定日期时间的季节。 |
|
确定日期时间的秒值。 |
|
确定日期时间在年内的周数。 |
|
确定日期时间在一周中的哪一天。 |
|
确定日期时间的年份值。 |
电子邮件和 URL 转换原语#
确定电子邮件的域名 |
|
|
确定电子邮件地址是否来自免费邮箱域名。 |
|
确定 URL 的域名。 |
|
确定 URL 的协议(http 或 https)。 |
确定 URL 的顶级域名。 |
指数转换原语#
|
计算一系列数字的指数加权移动平均值 |
|
计算一系列数字的指数加权移动标准差 |
|
计算一系列数字的指数加权移动方差 |
通用转换原语#
|
计算与前一个元素的绝对差 |
|
计算一个数的绝对值。 |
|
计算一个数的余弦。 |
|
确定值是否为 null。 |
|
计算一个数的自然对数。 |
|
对数值取反。 |
|
确定列表中每个值的百分位数排名。 |
|
计算值每秒的变化率。 |
|
确定值是否等于列表中前一个值。 |
|
计算一个数的正弦。 |
|
计算一个数的平方根。 |
|
计算一个数的正切。 |
|
计算数字列表的方差。 |
位置转换原语#
|
计算城市道路网格中点之间的距离。 |
|
确定两个坐标的地理中心。 |
|
计算两个经纬度列之间的近似半正矢距离。 |
|
确定坐标是否在由两个角点坐标定义的框内。 |
|
返回经纬度元组列表中的第一个元组值。 |
|
返回经纬度元组列表中的第二个元组值。 |
自然语言转换原语#
|
确定给定字符串在文本字段中出现的次数。 |
|
确定每词平均字符数。 |
|
确定词语长度的中位数。 |
|
计算给定字符串中的字符数,包括空白和标点符号。 |
|
计算唯一分隔符的数量。 |
|
确定字符串中的词数。 |
|
确定字符串中常见词的数量。 |
|
确定字符串中的话题标签数量。 |
|
确定字符串中的提及数量。 |
|
确定字符串中的唯一词语数量。 |
|
确定字符串中引号内的词语数量。 |
|
确定字符串中的标点符号数量。 |
|
确定字符串中的标题词数量。 |
|
确定总词语长度。 |
|
计算文本中的大写字母数量。 |
|
确定字符串中全部大写的词语数量。 |
|
计算字符串中的空白字符数量。 |
邮政编码原语#
|
返回给定邮政编码的一位前缀。 |
|
返回给定邮政编码的两位前缀。 |
时间序列转换原语#
|
计算给定窗口内事件的扩展计数。 |
|
计算给定窗口内事件的扩展最大值。 |
|
计算给定窗口内事件的扩展平均值。 |
|
计算给定窗口内事件的扩展最小值。 |
|
计算给定窗口内事件的扩展标准差。 |
|
计算给定窗口内事件的扩展趋势。 |
|
将值数组按指定周期数移动。 |
|
确定给定窗口内事件的滚动计数。 |
|
确定给定窗口内条目的最大值。 |
|
计算给定窗口内条目的平均值。 |
|
确定给定窗口内条目的最小值。 |
|
确定给定窗口内有多少值为异常值。 |
|
计算给定窗口内条目的标准差。 |
|
计算给定窗口内列条目随时间变化的趋势。 |
特征方法#
|
重命名特征,返回副本。 |
|
返回特征的深度 |
特征计算#
|
计算给定实例 ID 集合和计算时间的矩阵。 |
特征描述#
|
生成特征的英文描述。 |
特征可视化#
|
为给定特征生成特征沿袭图 |
特征编码#
|
编码分类特征 |
特征选择#
|
选择至少有两个唯一值且不全为 null 的特征 |
|
移除特征矩阵中与另一列高度相关的列。 |
|
从特征矩阵中移除 null 值高于设定阈值的列。 |
|
移除特征矩阵中所有值都相同的列。 |
特征矩阵工具#
|
将特征矩阵中的所有 |
保存和加载特征#
|
将特征列表保存为 JSON 到指定的文件路径/S3 路径,写入打开的文件,或将序列化特征作为 JSON 字符串返回。 |
|
从文件路径、S3 路径、URL、打开的文件或 JSON 格式字符串加载特征。 |
实体集,关系#
构造函数#
|
存储实体集的所有实际数据和类型信息 |
|
表示数据框之间关系的类 |
EntitySet 加载和准备数据#
|
使用 Woodwork 类型信息将 DataFrame 添加到 EntitySet。 |
查找或设置分类列的有趣值,用于生成 "where" 子句 |
|
计算每个数据框的最后时间索引值(观测到实例或其子级的最后时间)。 |
|
|
在实体集中添加数据框之间的新关系。 |
|
向实体集添加多个新关系 |
|
将实体集与另一个实体集合并,创建一个包含两个实体集合并数据的新实体集。 |
|
从现有列的唯一值创建新的数据框和关系。 |
使用数据框名称设置 EntitySet 中数据框的辅助时间索引。 |
|
|
替换 EntitySet 表的内部数据框,保持 Woodwork 类型信息不变。 |
EntitySet 序列化#
|
从磁盘、S3 路径或 URL 读取实体集。 |
|
将实体集以 csv 格式写入磁盘,位置由 path 指定。 |
|
将实体集以 pickle 格式写入磁盘,位置由 path 指定。 |
|
将实体集以 parquet 格式写入磁盘,位置由 path 指定。 |
EntitySet 查询方法#
|
从实体集获取数据框实例 |
生成器,生成起始数据框和目标数据框之间的所有向后路径。 |
|
生成器,生成起始数据框和目标数据框之间的所有向前路径。 |
|
|
获取与数据框存在向前关系的数据框 |
|
获取与数据框存在向后关系的数据框 |
|
查询列具有给定值的实例 |
EntitySet 可视化#
|
创建 EntitySet 的类似 UML 图的图形。 |
关系属性#
父数据框中的列 |
|
子数据框中的列 |
|
父数据框对象 |
|
子数据框对象 |
数据类型工具方法#
返回描述所有可用逻辑类型的数据框。 |
|
返回描述所有常见语义标签的数据框。 |
原语工具方法#
|
获取给定实体集的推荐原语列表。 |
返回一个 DataFrame,其中列出并描述了每个内置原语。 |
|
返回 list_primitives 中找到的所有原语的度量汇总 DataFrame。 |