featuretools.demo.load_flight#

featuretools.demo.load_flight(month_filter=None, categorical_filter=None, nrows=None, demo=True, return_single_table=False, verbose=False)[source]#

下载、清理和过滤 2017 年的航班数据。原始数据集可在此处找到。

参数:
  • month_filter (list[int]) – 仅使用这些月份的数据(例如 [1, 2])。要跳过,请设置为 None。

  • categorical_filter (dict[str->str]) – 仅使用指定的分类值。例如 {'dest_city': ['Boston, MA'], 'origin_city': ['Boston, MA']},返回所有进出波士顿的航班。要跳过,请设置为 None。

  • nrows (int) – 传递给 pd.read_csv 中的 nrows 参数。在过滤前使用。

  • demo (bool) – 仅使用两个月的数据。如果为 False,则使用全年数据。

  • return_single_table (bool) – 提前退出函数并返回一个 dataframe。

  • verbose (bool) – 在加载数据时显示进度条。

示例

In [1]: import featuretools as ft

In [2]: es = ft.demo.load_flight(verbose=True,
   ...:                          month_filter=[1],
   ...:                          categorical_filter={'origin_city':['Boston, MA']})
   ...: 
100%|xxxxxxxxxxxxxxxxxxxxxxxxx| 100/100 [01:16<00:00,  1.31it/s]

In [3]: es
Out[3]: 
Entityset: Flight Data
  DataFrames:
    airports [Rows: 55, Columns: 3]
    flights [Rows: 613, Columns: 9]
    trip_logs [Rows: 9456, Columns: 22]
    airlines [Rows: 10, Columns: 1]
  Relationships:
    trip_logs.flight_id -> flights.flight_id
    flights.carrier -> airlines.carrier
    flights.dest -> airports.dest