EasyTPP: 开放基准测试时序点过程的开源工具库
时序事件序列在医疗、金融、电商、社交网络等众多现实应用领域扮演着重要角色。为了对这类数据进行建模,时序点过程(Temporal Point Process, TPP)已经成为最自然和最有竞争力的模型,在学术界和应用领域都产生了重大影响。尽管近年来已经涌现出许多强大的TPP模型,但目前仍然缺乏一个统一的基准测试平台来评估和比较这些模型。这种标准化的缺失阻碍了研究人员和从业者比较不同方法和复现结果,可能会减缓该领域的研究进展。
为了解决这一问题,我们开发了EasyTPP,这是该领域首个集中的研究资源库,包含数据集、模型、评估程序和文档等。EasyTPP的主要特点和贡献包括:
- 提供了统一的接口来使用现有数据集和添加新数据集。
- 实现了多种易用且可扩展的评估指标,有助于进行可复现研究。
- 包含了多个流行神经TPP模型的实现,以及丰富的模块库,可以快速构建复杂模型。
- 支持TensorFlow和PyTorch两种深度学习框架。
- 提供了基于Optuna的超参数优化流程。
EasyTPP目前包含了以下内容:
- 6个来自不同领域的真实世界数据集和1个合成数据集
- 8个最新的神经TPP模型实现
- 多种评估指标,包括对数似然、下一事件预测和长期预测等
- 详细的使用文档和API参考
我们对EasyTPP进行了全面的基准测试,得到了一些有趣的发现:
- 经典的多元Hawkes过程(MHP)在大多数评估任务上表现不如神经网络模型。
- 在时间和类型预测任务上,没有一种模型能在所有数据集上取得最佳结果。
- 所有模型在预测未来事件发生时间上的表现都不够理想。
- 在事件类型预测上,基于注意力的模型仅略微优于其他架构。
这些发现为未来的研究指明了方向,例如构建事件序列的基础模型、结合大语言模型等。
EasyTPP是一个开源项目,我们欢迎来自研究人员和从业者的贡献。该工具库将促进TPP领域的可复现研究,加速研究进展,并产生更显著的现实世界影响。
项目地址:https://github.com/ant-research/EasyTemporalPointProcess
我们将持续维护和更新EasyTPP,不断添加新的数据集、模型和功能。希望这个开放的基准测试平台能够推动时序点过程研究的进步,促进学术界和工业界在这一重要领域的交流与合作。