featuretools.primitives.RollingSTD#

class featuretools.primitives.RollingSTD(window_length=3, gap=1, min_periods=1)[源代码]#

计算给定窗口内的条目标准差。

描述

给定一个数字列表和一个相应的 datetime 列表,返回数值的滚动标准差,从当前行向后偏移 gap 行并查看指定的时窗(由 window_lengthgap 定义)。输入的 datetime 应是单调的。

参数:
  • window_length (int, string, optional) – 指定每个窗口包含的数据量。如果提供整数,则对应于行数。对于采样频率均匀的数据,例如每天一次,window_length 对应于一段时间,在这种情况下,对于 window_length 为 7,则为 7 天。如果提供字符串,则必须是 pandas 的 offset alias 字符串之一('1D'、'1H' 等),表示每个窗口应跨越的时间长度。可用 offset alias 列表可在 https://pandas.ac.cn/pandas-docs/stable/user_guide/timeseries.html#offset-aliases 找到。默认为 3。

  • gap (int, string, optional) – 指定从每个实例向后偏移的间隙,之后开始可用数据窗口。如果提供整数,则对应于行数。如果提供字符串,则必须是 pandas 的 offset alias 字符串之一('1D'、'1H' 等),表示目标实例与其窗口开始之间的时长时间。默认为 1。

  • min_periods (int, optional) – 在窗口上执行计算所需的最小观测数。当 window_length 是整数时,最多只能与 window_length 一样大。当 window_length 是 offset alias 字符串时,不存在此限制,但应注意不要选择一个 min_periods 始终大于窗口中观测数的 min_periods。默认为 1。

注意

仅具有固定频率的 offset alias 可用于定义 gap 和 window_length。这意味着不能使用诸如 MW 之类的别名,因为它们可以指示不同的天数。('M',因为不同月份有不同的天数;'W' 因为周将指示一周中的某一天,例如 W-Wed,所以会根据锚定日期指示不同的天数。)

注意

当使用 offset alias 定义 gap 时,还必须使用 offset alias 定义 window_length。当使用 offset alias 定义 window_length 时,不存在此限制。事实上,如果数据具有均匀的采样频率,最好使用数字 gap,因为它更高效。

示例

>>> import pandas as pd
>>> rolling_std = RollingSTD(window_length=4)
>>> times = pd.date_range(start='2019-01-01', freq='1min', periods=5)
>>> rolling_std(times, [4, 3, 2, 1, 0]).tolist()
[nan, nan, 0.7071067811865476, 1.0, 1.2909944487358056]

我们还可以控制滚动计算之前的间隙。

>>> import pandas as pd
>>> rolling_std = RollingSTD(window_length=4, gap=0)
>>> times = pd.date_range(start='2019-01-01', freq='1min', periods=5)
>>> rolling_std(times, [4, 3, 2, 1, 0]).tolist()
[nan, 0.7071067811865476, 1.0, 1.2909944487358056, 1.2909944487358056]

我们还可以控制滚动计算所需的最小周期数。

>>> import pandas as pd
>>> rolling_std = RollingSTD(window_length=4, min_periods=4, gap=0)
>>> times = pd.date_range(start='2019-01-01', freq='1min', periods=5)
>>> rolling_std(times, [4, 3, 2, 1, 0]).tolist()
[nan, nan, nan, 1.2909944487358056, 1.2909944487358056]

我们还可以使用 offset alias 字符串设置 window_length 和 gap。 >>> import pandas as pd >>> rolling_std = RollingSTD(window_length=’4min’, gap=’1min’) >>> times = pd.date_range(start=’2019-01-01’, freq=’1min’, periods=5) >>> rolling_std(times, [4, 3, 2, 1, 0]).tolist() [nan, nan, 0.7071067811865476, 1.0, 1.2909944487358056]

__init__(window_length=3, gap=1, min_periods=1)[源代码]#

方法

__init__([window_length, gap, min_periods])

flatten_nested_input_types(input_types)

将嵌套的列模式输入展平为单个列表。

generate_name(base_feature_names)

generate_names(base_feature_names)

get_args_string()

get_arguments()

get_description(input_column_descriptions[, ...])

get_filepath(filename)

get_function()

属性

base_of

base_of_exclude

commutative

default_value

如果找不到数据,此特征返回的默认值。

description_template

input_types

输入的 woodwork.ColumnSchema 类型

max_stack_depth

name

基本类型的名称

number_output_features

与此特征关联的特征矩阵中的列数

return_type

返回的 ColumnSchema 类型

stack_on

stack_on_exclude

stack_on_self

uses_calc_time

uses_full_dataframe