基于Transformer的通用多标签图像分类
Jack Lanchantin, Tianlu Wang, Vicente Ordóñez Román, Yanjun Qi
计算机视觉与模式识别会议(CVPR)2021
[论文] [海报] [幻灯片]
C-Tran的训练和运行
需要Python 3.7版本,所有使用的主要软件包及其版本都列在requirements.txt
中。
COCO80数据集上的C-Tran
下载COCO数据(19G)
wget https://www.cs.virginia.edu/yanjun/jack/vision/coco.tar.gz
mkdir -p data/
tar -xvf coco.tar.gz -C data/
训练新模型
python main.py --batch_size 16 --lr 0.00001 --optim 'adam' --layers 3 --dataset 'coco' --use_lmt --dataroot data/
VOC20数据集上的C-Tran
下载VOC2007数据(1.7G)
wget https://www.cs.virginia.edu/yanjun/jack/vision/voc.tar.gz
mkdir -p data/
tar -xvf voc.tar.gz -C data/
训练新模型
python main.py --batch_size 16 --lr 0.00001 --optim 'adam' --layers 3 --dataset 'voc' --use_lmt --grad_ac_step 2 --dataroot data/
引用
@article{lanchantin2020general,
title={General Multi-label Image Classification with Transformers},
author={Lanchantin, Jack and Wang, Tianlu and Ordonez, Vicente and Qi, Yanjun},
journal={arXiv preprint arXiv:2011.14027},
year={2020}
}