项目介绍:Tab-Transformer-PyTorch
项目背景
Tab-Transformer是一个基于Pytorch实现的用于表格数据的注意力网络。它的设计对标GBDT(梯度提升决策树),并在性能上非常接近。而据亚马逊AI的最新研究,在实际数据集(如预测运费)上,通过使用Attention机制有可能超越GBDT的表现。
安装指南
这个项目可以通过简单的pip命令来安装:
$ pip install tab-transformer-pytorch
如何使用Tab Transformer
Tab Transformer允许用户在处理分类和连续数值数据时,利用Transformers的优势。下面是一个简单的代码示例。
import torch
import torch.nn as nn
from tab_transformer_pytorch import TabTransformer
cont_mean_std = torch.randn(10, 2)
model = TabTransformer(
categories = (10, 5, 6, 5, 8), # 每个分类特征的唯一值数量
num_continuous = 10, # 连续数值特征的数量
dim = 32, # 模型的维度
dim_out = 1, # 输出的维度,适用于二分类任务
depth = 6, # 模型的深度
heads = 8, # 注意力头的数量
attn_dropout = 0.1, # 注意力dropout比率
ff_dropout = 0.1, # 前馈dropout比率
mlp_hidden_mults = (4, 2), # 多层感知机隐藏层尺寸的倍数
mlp_act = nn.ReLU(), # 多层感知机的激活函数
continuous_mean_std = cont_mean_std # 归一化连续值的选项
)
x_categ = torch.randint(0, 5, (1, 5)) # 分类特征值
x_cont = torch.randn(1, 10) # 连续特征值
pred = model(x_categ, x_cont) # 模型预测输出
FT Transformer改进
FT Transformer是由Yandex在Tab Transformer的基础上提出的一种改进方法。它采用了一种更简单的方案来嵌入连续的数值特征。以下是其在本项目中的实现示例:
import torch
from tab_transformer_pytorch import FTTransformer
model = FTTransformer(
categories = (10, 5, 6, 5, 8),
num_continuous = 10,
dim = 32,
dim_out = 1,
depth = 6,
heads = 8,
attn_dropout = 0.1,
ff_dropout = 0.1
)
x_categ = torch.randint(0, 5, (1, 5))
x_numer = torch.randn(1, 10)
pred = model(x_categ, x_numer)
关于无监督训练
若想进行论文中描述的无监督训练类型,用户可以首先将分类标记转换为相应的唯一id,然后在model.transformer
上应用相应的方法。
待办事项
- 考虑加入新的研究和改进算法。
引用
如果您在研究中使用了这个项目,我们建议您引用以下工作:
@misc{huang2020tabtransformer,
title = {TabTransformer: Tabular Data Modeling Using Contextual Embeddings},
author = {Xin Huang and Ashish Khetan and Milan Cvitkovic and Zohar Karnin},
year = {2020},
eprint = {2012.06678},
archivePrefix = {arXiv},
primaryClass = {cs.LG}
}
@article{Gorishniy2021RevisitingDL,
title = {Revisiting Deep Learning Models for Tabular Data},
author = {Yu. V. Gorishniy and Ivan Rubachev and Valentin Khrulkov and Artem Babenko},
journal = {ArXiv},
year = {2021},
volume = {abs/2106.11959}
}
通过这篇介绍,希望能让读者对Tab-Transformer-PyTorch项目有一个初步的了解,并能在自己的任务中探索其应用潜力!