Parameter-Efficient Transfer Learning Benchmark: 一个统一的视觉参数高效迁移学习基准

参数高效迁移学习基准:统一视觉任务评估

参数高效迁移学习(Parameter-Efficient Transfer Learning, PETL)方法在近年来受到了广泛关注。这些方法能够在仅训练少量参数的情况下,将预训练模型适应到各种下游任务中。在计算机视觉领域,已经提出了众多PETL算法,但直接使用或比较这些算法仍然存在不便。为了解决这一挑战,研究人员构建了一个统一的视觉PETL基准(V-PETL Bench)。

基准概述

V-PETL Bench从图像识别、视频动作识别和密集预测任务中精心挑选了30个多样化、具有挑战性和全面的数据集。在这些数据集上,研究人员系统评估了25种主流的PETL算法,并开源了一个模块化和可扩展的代码库,以便公平评估这些算法。

PETL Benchmark概览

如上图所示,V-PETL Bench涵盖了多个视觉任务领域,包括:

图像分类:包括细粒度视觉分类(FGVC)和视觉任务适应基准(VTAB)
视频动作识别:使用Kinetics-400和Something-Something V2数据集
密集预测:包括目标检测和语义分割任务

数据准备

为了方便研究人员使用,V-PETL Bench提供了详细的数据准备指南:

图像分类数据集:
- FGVC数据集可以从官方链接下载,并提供了训练集划分。
- VTAB数据集已经进行了处理,可以直接下载使用。
视频动作识别数据集:
- Kinetics-400和SSv2数据集需要下载并进行预处理。
- 提供了生成数据加载器所需注释的指南。
密集预测数据集:
- MS-COCO、ADE20K和PASCAL VOC数据集的下载链接和处理方法。

预训练模型

V-PETL Bench使用了多种预训练模型,包括:

ViT-B/16、ViT-L/16、ViT-H/16:在ImageNet-21K上进行监督预训练
Swin-B、Swin-L:在ImageNet-22K上进行监督预训练
VideoMAE ViT-B:在Kinetics-400上进行自监督预训练
Video Swin-B:在Kinetics-400上进行监督预训练

这些预训练模型可以从提供的链接下载。

代码结构

V-PETL Bench的代码结构清晰,主要包含以下部分:

configs:处理实验的配置参数
dataloader:加载和设置输入数据集
models:处理不同微调协议的主干网络和头部
train:包含训练和评估文件
scripts:包含运行脚本
Visualize:可视化工具
utils:创建日志、设置随机种子等

快速开始

V-PETL Bench提供了详细的安装和使用指南:

克隆代码仓库
设置conda环境并安装依赖
准备数据集和预训练模型
运行训练和评估脚本

同时还提供了一个具体的训练和评估示例,以LoRA方法在VTAB的Cifar100数据集上为例。

基准结果

V-PETL Bench在多个任务上进行了全面的评估:

图像分类:
- 在FGVC的5个数据集上评估了13种PETL算法
- 在VTAB的19个数据集上评估了18种PETL算法
视频动作识别:
- 在SSv2和HMDB51数据集上评估了5种PETL算法
密集预测:
- 在MS-COCO、ADE20K和PASCAL VOC数据集上进行了评估

评估结果显示,不同的PETL方法在各种任务上表现各异,没有一种方法能在所有任务上都表现最佳。这突显了构建统一基准的重要性,以便全面评估PETL方法的性能。

结论

V-PETL Bench为计算机视觉领域的参数高效迁移学习研究提供了一个全面、统一的评估平台。通过在多样化的数据集和任务上系统比较各种PETL方法,该基准有助于研究人员更好地理解这些方法的优缺点,为进一步改进PETL技术提供了重要参考。未来,V-PETL Bench还将继续扩展,纳入更多新兴的PETL方法和视觉任务,为推动该领域的发展做出贡献。

总的来说,V-PETL Bench的出现填补了计算机视觉领域缺乏统一PETL评估基准的空白,为相关研究提供了宝贵的资源和工具。随着深度学习模型规模的不断增长,参数高效迁移学习必将在未来发挥更加重要的作用。V-PETL Bench的持续发展和完善,将为这一重要研究方向提供强有力的支持。