参数高效迁移学习基准:统一视觉任务评估
参数高效迁移学习(Parameter-Efficient Transfer Learning, PETL)方法在近年来受到了广泛关注。这些方法能够在仅训练少量参数的情况下,将预训练模型适应到各种下游任务中。在计算机视觉领域,已经提出了众多PETL算法,但直接使用或比较这些算法仍然存在不便。为了解决这一挑战,研究人员构建了一个统一的视觉PETL基准(V-PETL Bench)。
基准概述
V-PETL Bench从图像识别、视频动作识别和密集预测任务中精心挑选了30个多样化、具有挑战性和全面的数据集。在这些数据集上,研究人员系统评估了25种主流的PETL算法,并开源了一个模块化和可扩展的代码库,以便公平评估这些算法。
如上图所示,V-PETL Bench涵盖了多个视觉任务领域,包括:
- 图像分类:包括细粒度视觉分类(FGVC)和视觉任务适应基准(VTAB)
- 视频动作识别:使用Kinetics-400和Something-Something V2数据集
- 密集预测:包括目标检测和语义分割任务
数据准备
为了方便研究人员使用,V-PETL Bench提供了详细的数据准备指南:
-
图像分类数据集:
- FGVC数据集可以从官方链接下载,并提供了训练集划分。
- VTAB数据集已经进行了处理,可以直接下载使用。
-
视频动作识别数据集:
- Kinetics-400和SSv2数据集需要下载并进行预处理。
- 提供了生成数据加载器所需注释的指南。
-
密集预测数据集:
- MS-COCO、ADE20K和PASCAL VOC数据集的下载链接和处理方法。
预训练模型
V-PETL Bench使用了多种预训练模型,包括:
- ViT-B/16、ViT-L/16、ViT-H/16:在ImageNet-21K上进行监督预训练
- Swin-B、Swin-L:在ImageNet-22K上进行监督预训练
- VideoMAE ViT-B:在Kinetics-400上进行自监督预训练
- Video Swin-B:在Kinetics-400上进行监督预训练
这些预训练模型可以从提供的链接下载。
代码结构
V-PETL Bench的代码结构清晰,主要包含以下部分:
configs
:处理实验的配置参数dataloader
:加载和设置输入数据集models
:处理不同微调协议的主干网络和头部train
:包含训练和评估文件scripts
:包含运行脚本Visualize
:可视化工具utils
:创建日志、设置随机种子等
快速开始
V-PETL Bench提供了详细的安装和使用指南:
- 克隆代码仓库
- 设置conda环境并安装依赖
- 准备数据集和预训练模型
- 运行训练和评估脚本
同时还提供了一个具体的训练和评估示例,以LoRA方法在VTAB的Cifar100数据集上为例。
基准结果
V-PETL Bench在多个任务上进行了全面的评估:
-
图像分类:
- 在FGVC的5个数据集上评估了13种PETL算法
- 在VTAB的19个数据集上评估了18种PETL算法
-
视频动作识别:
- 在SSv2和HMDB51数据集上评估了5种PETL算法
-
密集预测:
- 在MS-COCO、ADE20K和PASCAL VOC数据集上进行了评估
评估结果显示,不同的PETL方法在各种任务上表现各异,没有一种方法能在所有任务上都表现最佳。这突显了构建统一基准的重要性,以便全面评估PETL方法的性能。
结论
V-PETL Bench为计算机视觉领域的参数高效迁移学习研究提供了一个全面、统一的评估平台。通过在多样化的数据集和任务上系统比较各种PETL方法,该基准有助于研究人员更好地理解这些方法的优缺点,为进一步改进PETL技术提供了重要参考。未来,V-PETL Bench还将继续扩展,纳入更多新兴的PETL方法和视觉任务,为推动该领域的发展做出贡献。
总的来说,V-PETL Bench的出现填补了计算机视觉领域缺乏统一PETL评估基准的空白,为相关研究提供了宝贵的资源和工具。随着深度学习模型规模的不断增长,参数高效迁移学习必将在未来发挥更加重要的作用。V-PETL Bench的持续发展和完善,将为这一重要研究方向提供强有力的支持。