functime:时间序列机器学习的高效工具
functime是一个功能强大的Python库,专为生产环境下的全局预测和时间序列特征提取而设计,特别适用于大规模面板数据。它基于Polars构建,具有出色的并行计算能力,可以高效处理大量时间序列数据。
主要特性
- 高速处理: 能在普通笔记本电脑上几秒钟内完成10万个时间序列的预测和特征提取
- 高效并行: 利用Polars实现时间序列特征工程的高度并行化
- 经过验证: 包含能带来实际业务价值并在竞赛中取得优异成绩的机器学习算法
- 支持外部特征: 所有预测器都支持外生变量
- 回测功能: 提供扩展窗口和滑动窗口分割器用于回测
- 自动化调优: 使用FLAML进行自动化滞后期选择和超参数调优
除了核心的预测和特征提取功能外,functime还提供了一系列实用工具:
- 时间序列预处理(如Box-Cox变换、差分等)
- 交叉验证分割器(扩展窗口和滑动窗口)
- 预测评估指标(如MASE、SMAPE等)
这些功能都经过优化,作为Polars的惰性转换实现,保证了高效的数据处理。
快速上手
通过pip安装functime非常简单:
pip install functime
functime还提供了一些额外选项。例如,要安装支持大语言模型(LLM)和LightGBM的完整版本:
pip install "functime[llm,lgb]"
以下是一个基本的预测示例:
import polars as pl
from functime.cross_validation import train_test_split
from functime.forecasting import linear_model
from functime.metrics import mase
# 加载商品价格数据
y = pl.read_parquet("https://github.com/functime-org/functime/raw/main/data/commodities.parquet")
entity_col, time_col = y.columns[:2]
# 时间序列分割
y_train, y_test = y.pipe(train_test_split(test_size=3))
# 拟合预测
forecaster = linear_model(freq="1mo", lags=24)
forecaster.fit(y=y_train)
y_pred = forecaster.predict(fh=3)
# 并行计算评估指标
scores = mase(y_true=y_test, y_pred=y_pred, y_train=y_train)
特征提取
functime提供了100多种时间序列特征提取器。每个特征都可以通过functime的自定义ts
(time-series)命名空间轻松访问,该命名空间适用于任何Polars Series或表达式。
以下是一个特征提取的示例:
import polars as pl
import numpy as np
from functime.feature_extractors import FeatureExtractor, binned_entropy
# 加载数据
y = pl.read_parquet("https://github.com/functime-org/functime/raw/main/data/commodities.parquet")
entity_col, time_col, value_col = y.columns
# 在多个时间序列上快速提取特征
features = (
y.group_by(entity_col)
.agg(
binned_entropy=pl.col(value_col).ts.binned_entropy(bin_count=10),
lempel_ziv_complexity=pl.col(value_col).ts.lempel_ziv_complexity(threshold=3),
longest_streak_above_mean=pl.col(value_col).ts.longest_streak_above_mean(),
)
)
LLM支持
functime还集成了专门的LLM代理,用于分析、描述和比较预测结果。这为用户提供了一个强大的工具,可以深入理解预测模型的表现和时间序列的特征。
社区和支持
functime拥有活跃的开发者社区,欢迎通过Discord加入讨论。项目在GitHub上开源,遵循Apache-2.0许可证。
无论是处理大规模时间序列数据集,还是需要高效的特征工程和预测能力,functime都是一个值得考虑的强大工具。它结合了高性能计算、丰富的功能和易用的API,为时间序列分析和预测提供了全面的解决方案。