Project Icon

TabFormer

用于对多变量时间序列进行建模的表格转换器

该项目提供了用Pytorch实现的Tabular Transformers源代码和数据,可用于多变量时间序列建模。项目特点包括层级变压器模块、综合信用卡交易数据集、改进的自适应Softmax和为表格数据调整的DataCollatorForLanguageModeling模块。代码架构基于HuggingFace的transformers框架,拥有很好的扩展性和易用性。

TabFormer 项目介绍

TabFormer 是一个基于PyTorch的项目,旨在为多变量时间序列建模提供一种新的方法。该项目在ICASSP 2021大会上进行了展示。以下是TabFormer项目的具体介绍。

项目概述

TabFormer 项目提供了一系列工具和数据集,用于构建分层结构的表格数据变换器,具体包括以下几个方面:

  • 模块化的层级变换器,用于处理表格数据。
  • 一个模拟的信用卡交易数据集。
  • 改进版的Adaptive Softmax,用于处理数据屏蔽问题。
  • 针对表格数据定制的 DataCollatorForLanguageModeling 模块。
  • 所有模块基于 HuggingFace 🤗 的transformers构建。

项目要求

为了运行TabFormer 项目,需要具备以下软件环境:

  • Python 版本 3.7
  • Pytorch 版本 1.6.0
  • HuggingFace / Transformer 版本 3.2.0
  • scikit-learn 版本 0.23.2
  • Pandas 版本 1.1.2

可以通过运行以下命令来安装这些库:

conda env create -f setup.yml

信用卡交易数据集

项目中提供的信用卡交易数据集位于目录 ./data/credit_card 中,包含2400万条记录和12个字段。需要使用Git LFS来访问该数据。如果LFS带宽受限,可以通过直接链接访问数据,然后使用 GIT_LFS_SKIP_SMUDGE=1 参数访问文件。

PRSA 数据集

对于PRSA数据集,用户需从Kaggle下载并放置在 ./data/card 目录下。

训练Tabular模型

Tabular BERT

要在信用卡交易数据或PRSA数据集上训练一个Tabular BERT模型,可以使用以下命令:

python main.py --do_train --mlm --field_ce --lm_type bert \
               --field_hs 64 --data_type [prsa/card] \
               --output_dir [output_dir]

Tabular GPT2

对于特定用户的信用卡交易数据,可以训练Tabular GPT2模型:

python main.py --do_train --lm_type gpt2 --field_ce --flatten --data_type card \
               --data_root [path_to_data] --user_ids [user-id] \
               --output_dir [output_dir]

部分命令选项说明(更多选项可以在args.py中查找):

  • --data_type 用于指定数据集类型,可选项包括 prsacard
  • --mlm 表示使用屏蔽语言模型,这是BERT变换器的一个选项。
  • --field_hs 表示字段级变换器的隐藏层大小。
  • --lm_type 可以选择 bertgpt2
  • --user_ids 用于只选择特定用户ID的交易数据。

引用

如果在研究中使用了该项目,建议引用以下文献:

@inproceedings{padhi2021tabular,
  title={Tabular transformers for modeling multivariate time series},
  author={Padhi, Inkit and Schiff, Yair and Melnyk, Igor and Rigotti, Mattia and Mroueh, Youssef and Dognin, Pierre and Ross, Jerret and Nair, Ravi and Altman, Erik},
  booktitle={ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
  pages={3565--3569},
  year={2021},
  organization={IEEE}
}

通过以上介绍,可以对TabFormer项目有一个全面的了解。项目提供了强大的工具和数据,助力多变量时间序列建模。

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能,包括文生视频、动态画面和形象生成等,帮助用户快速上手,创造专业级内容。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台,用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品,帮助用户探索创意灵感。

Project Cover

讯飞文书

讯飞文书依托讯飞星火大模型,为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能,满足事务性工作的高频需求,帮助撰稿人节省精力,提高效率,优化工作与生活。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号