featuretools.primitives.RollingMax#
- class featuretools.primitives.RollingMax(window_length=3, gap=1, min_periods=1)[源代码]#
确定给定窗口内的最大值。
- 描述
给定一个数字列表和相应的日期时间列表,返回数字值的滚动最大值,计算从当前行向后偏移 gap 行开始,并在指定窗口(由 window_length 和 gap 定义)内进行计算。
输入日期时间应是单调的。
- 参数:
window_length (int, string, optional) – 指定每个窗口包含的数据量。如果提供整数,它对应于行数。对于采样频率均匀的数据(例如每天一次),`window_length` 将对应于一段时间,例如,当 `window_length` 为 7 时,对应 7 天。如果提供字符串,它必须是 pandas 的偏移别名字符串之一(如 '1D', '1H' 等),表示每个窗口应跨越的时间长度。可用偏移别名的列表可在 https://pandas.ac.cn/pandas-docs/stable/user_guide/timeseries.html#offset-aliases 找到。默认为 3。
gap (int, string, optional) – 指定从每个实例向后偏移一个间隙,之后可用数据的窗口开始。如果提供整数,它对应于行数。如果提供字符串,它必须是 pandas 的偏移别名字符串之一(如 '1D', '1H' 等),表示目标实例与其窗口开始之间的时长时间长度。默认为 1。
min_periods (int, optional) – 执行窗口计算所需的最少观测次数。当 `window_length` 是整数时,它最多只能与 `window_length` 一样大。当 `window_length` 是偏移别名字符串时,没有此限制,但应注意不要选择一个始终大于窗口中观测次数的 `min_periods`。默认为 1。
注意
只有固定频率的偏移别名可用于定义 `gap` 和 `window_length`。这意味着不能使用像 M 或 W 这样的别名,因为它们可能表示不同的天数。(M,因为不同的月份天数不同;W,因为星期会指定一周中的某一天,如 W-Wed,所以根据锚定日期,它会表示不同的天数。)
注意
当使用偏移别名定义 gap 时,必须也使用偏移别名来定义 window_length。当使用偏移别名定义 window_length 时,没有此限制。实际上,如果数据采样频率均匀,建议使用数字 gap,因为它更高效。
示例
>>> import pandas as pd >>> rolling_max = RollingMax(window_length=3) >>> times = pd.date_range(start='2019-01-01', freq='1min', periods=5) >>> rolling_max(times, [4, 3, 2, 1, 0]).tolist() [nan, 4.0, 4.0, 4.0, 3.0]
我们还可以控制滚动计算之前的间隙。
>>> import pandas as pd >>> rolling_max = RollingMax(window_length=3, gap=0) >>> times = pd.date_range(start='2019-01-01', freq='1min', periods=5) >>> rolling_max(times, [4, 3, 2, 1, 0]).tolist() [4.0, 4.0, 4.0, 3.0, 2.0]
我们还可以控制滚动计算所需的最小周期数。
>>> import pandas as pd >>> rolling_max = RollingMax(window_length=3, min_periods=3, gap=0) >>> times = pd.date_range(start='2019-01-01', freq='1min', periods=5) >>> rolling_max(times, [4, 3, 2, 1, 0]).tolist() [nan, nan, 4.0, 3.0, 2.0]
我们还可以使用偏移别名字符串设置 window_length 和 gap。
>>> import pandas as pd >>> rolling_max = RollingMax(window_length='3min', gap='1min') >>> times = pd.date_range(start='2019-01-01', freq='1min', periods=5) >>> rolling_max(times, [4, 3, 2, 1, 0]).tolist() [nan, 4.0, 4.0, 4.0, 3.0]
方法
__init__
([window_length, gap, min_periods])flatten_nested_input_types
(input_types)将嵌套的列 Schema 输入展平为单个列表。
generate_name
(base_feature_names)generate_names
(base_feature_names)get_args_string
()get_arguments
()get_description
(input_column_descriptions[, ...])get_filepath
(filename)get_function
()属性
base_of
base_of_exclude
commutative
default_value
如果未找到数据,此特征返回的默认值。
description_template
input_types
输入的 woodwork.ColumnSchema 类型
max_stack_depth
name
原语的名称
number_output_features
与此特征关联的特征矩阵中的列数
return_type
返回值的 ColumnSchema 类型
stack_on
stack_on_exclude
stack_on_self
uses_calc_time
uses_full_dataframe