Awesome Vision-Language Models
这是视觉任务的视觉语言模型:综述的代码库, 系统性地调查了在各种视觉识别任务中VLM研究,包括图像分类、目标检测、语义分割等。详情请参考:
视觉任务的视觉语言模型:综述 [论文]
IEEE模式分析与机器智能交易 (TPAMI), 2024
如果您发现这里没有收录的相关论文,欢迎提交请求或联系我们。
提交请求的流程如下:
- a. 将项目fork到您自己的代码库。
- b. 在
README.md
中使用以下格式添加标题、论文链接、会议、项目/代码链接:
|[标题](论文链接)|会议|[代码/项目](代码/项目链接)|
- c. 提交请求到此分支。
🔥 新闻
最后更新于2024年7月24日
VLM预训练方法
- [CVPR 2024] 通过聚类掩码实现高效的视觉语言预训练 [论文][代码]
- [CVPR 2024] 迈向更好的视觉启发的视觉语言模型 [论文]
- [CVPR 2024] 非自回归序列到序列的视觉语言模型 [论文]
- [CVPR 2024] ViTamin: 设计可扩展的视觉语言时代视觉模型 [论文][代码]
- [CVPR 2024] 迭代学习提高大视觉语言模型的组合性 [论文]
- [CVPR 2024] FairCLIP: 在视觉语言学习中利用公平性 [论文][代码]
- [CVPR 2024] InternVL: 扩展视觉基础模型并对齐通用视觉语言任务 [论文][代码]
- [CVPR 2024] VILA: 视觉语言模型预训练研究 [论文]
- [CVPR 2024] 用生成区域-语言预训练进行开放式目标检测 [论文][代码]
- [CVPR 2024] 通过丰富的监督增强视觉语言预训练 [论文]
- [ICLR 2024] 通过动态离散视觉量化在大语言模型中实现统一的语言-视觉预训练 [论文][代码]
- [ICLR 2024] MMICL: 通过多模态情境学习增强视觉语言模型 [论文][代码]
- [ICLR 2024] 检索增强的对比视觉-文本模型 [论文]
VLM迁移学习方法
- [ECCV 2024] CLAP: 通过增强式提示的对比学习分离内容和样式 [论文][代码]
- [ECCV 2024] FALIP: 视觉提示作为中央视觉增强提升CLIP的零样本性能 [论文][代码]
- [ECCV 2024] GalLoP: 学习视觉语言模型的全局和局部提示 [论文]
- [ECCV 2024] 注意干扰:在视觉语言模型参数高效持续学习中保持预训练知识 [论文][代码]
- [CVPR 2024] 一个提示词足以提升预训练视觉语言模型的对抗鲁棒性 [论文][代码]
- [CVPR 2024] 通用分布的任何偏移提示 [论文]
- [CVPR 2024] 深入探讨大型视觉语言模型的少样本适应 [论文][代码]
- [CVPR 2024] 基于锚点的视觉语言模型鲁棒微调 [论文]
- [CVPR 2024] 预训练视觉和语言变压器是少样本增量学习者 [论文][代码]
- [CVPR 2024] 视觉情境提示 [论文][代码]
- [CVPR 2024] TCP:基于文本的类别感知提示调优视觉语言模型 [论文][代码]
- [CVPR 2024] 视觉语言模型的高效测试时适应 [论文][代码]
- [CVPR 2024] 双记忆网络:视觉语言模型的多功能适应方法 [论文][代码]
- [ICLR 2024] DePT: 通过分解提示调优实现参数高效微调 [论文][代码]
- [ICLR 2024] Nemesis: 标准化视觉语言模型的软提示向量 [论文]
- [ICLR 2024] 用于持续学习的提示梯度投影 [论文]
- [ICLR 2024] 一张图值千词:跨提示在视觉语言模型上对抗图片的可转移性 [论文]
- [ICLR 2024] Matcher: 使用通用特征匹配进行单次段落任何东西 [论文][代码]
- [ICLR 2024] 在联邦学习中为视觉语言模型生成的文本驱动提示 [论文]
- [ICLR 2024] 一致性指导的视觉语言模型提示学习 [论文]
- [ICLR 2024] C-TPT: 通过文本特征分散进行视觉语言模型的校准测试时提示调优 [论文]
- [arXiv 2024] 学习提示分割任何模型 [论文]
VLM知识蒸馏用于检测
- [CVPR 2024] RegionGPT: 迈向区域理解的视觉语言模型 [论文][代码]
- [ICLR 2024] LLMs遇见VLMs:用细粒度描述提升开放词汇物体检测 [论文]
- [ICLR 2024] Ins-DetCLIP: 对齐检测模型以遵循人类语言指令 [论文]
VLM知识蒸馏用于分割
- [ICLR 2024] CLIPSelf: 视觉变压器为开放词汇密集预测提供自我蒸馏 [论文]
VLM知识蒸馏用于其他视觉任务
- [ICLR 2024] FROSTER: 冻结的CLIP是开放词汇动作识别的强教师 [论文][项目]
- [ICLR 2024] AnomalyCLIP: 用于零样本异常检测的对象无关提示学习 [论文][代码]
摘要
大多数视觉识别研究在深度神经网络(DNN)训练中严重依赖于人群标注数据,通常为每个单一视觉识别任务训练一个DNN,导致费力且耗时的视觉识别范式。为了解决这两个挑战,最近对视觉语言模型(VLM)进行了深入研究,通过几乎无限可用的网络规模图像-文本对学习丰富的视觉语言关联,并使用单个VLM在各种视觉识别任务上实现零样本预测。本文对各种视觉识别任务中的视觉语言模型进行了系统综述,包括:(1) 介绍视觉识别范式发展的背景;(2) 总结广泛采用的网络架构、预训练目标和下游任务的VLM基础;(3) 在VLM预训练和评估中使用的广泛数据集;(4) 对现有VLM预训练方法、VLM迁移学习方法和VLM知识蒸馏方法的回顾和分类;(5) 对各方法的基准测试、分析和讨论;(6) 未来VLM研究中的几个研究挑战和潜在研究方向。
引用
如果您觉得我们的工作对您的研究有帮助,请考虑引用:
@article{zhang2024vision,
title={视觉任务的视觉语言模型:综述},
author={张静怡,黄嘉兴,金盛,鲁世杰},
journal={IEEE模式分析与机器智能交易},
year={2024},
publisher={IEEE}
}
目录
数据集
VLM预训练数据集
数据集 | 年份 | 图像-文本对数量 | 语言 | 项目 |
---|---|---|---|---|
SBU Caption | 2011 | 1M | 英语 | 项目 |
COCO Caption | 2016 | 1.5M | 英语 | 项目 |
Yahoo Flickr Creative Commons 100 Million | 2016 | 100M | 英语 | 项目 |
Visual Genome | 2017 | 5.4M | 英语 | 项目 |
Conceptual Captions 3M | 2018 | 3.3M | 英语 | 项目 |
Localized Narratives | 2020 | 0.87M | 英语 | 项目 |
Conceptual 12M | 2021 | 12M | 英语 | 项目 |
Wikipedia-based Image Text | 2021 | 37.6M | 108种语言 | 项目 |
Red Caps | 2021 | 12M | 英语 | 项目 |
LAION400M | 2021 | 400M | 英语 | 项目 |
LAION5B | 2022 | 5B | 超过100种语言 | 项目 |
WuKong | 2022 | 100M | 中文 | 项目 |
CLIP | 2021 | 400M | 英语 | - |
ALIGN | 2021 | 1.8B | 英语 | - |
FILIP | 2021 | 300M | 英语 | - |
WebLI | 2022 | 12B | 英语 | - |
VLM评估数据集
图像分类
数据集 | 年份 | 类别 | 训练集 | 测试集 | 评估指标 | 项目 |
---|---|---|---|---|---|---|
MNIST | 1998 | 10 | 60,000 | 10,000 | 准确率 | 项目 |
Caltech-101 | 2004 | 102 | 3,060 | 6,085 | 平均类别准确率 | 项目 |
PASCAL VOC 2007 | 2007 | 20 | 5,011 | 4,952 | 11点mAP | 项目 |
Oxford 102 Flowers | 2008 | 102 | 2,040 | 6,149 | 平均类别准确率 | 项目 |
CIFAR-10 | 2009 | 10 | 50,000 | 10,000 | 准确率 | 项目 |
CIFAR-100 | 2009 | 100 | 50,000 | 10,000 | 准确率 | 项目 |
ImageNet-1k | 2009 | 1000 | 1,281,167 | 50,000 | 准确率 | 项目 |
SUN397 | 2010 | 397 | 19,850 | 19,850 | 准确率 | 项目 |
SVHN | 2011 | 10 | 73,257 | 26,032 | 准确率 | 项目 |
STL-10 | 2011 | 10 | 1,000 | 8,000 | 准确率 | 项目 |
GTSRB | 2011 | 43 | 26,640 | 12,630 | 准确率 | 项目 |
KITTI Distance | 2012 | 4 | 6,770 | 711 | 准确率 | 项目 |
IIIT5k | 2012 | 36 | 2,000 | 3,000 | 准确率 | 项目 |
Oxford-IIIT PETS | 2012 | 37 | 3,680 | 3,669 | 平均类别准确率 | 项目 |
Stanford Cars | 2013 | 196 | 8,144 | 8,041 | 准确率 | 项目 |
FGVC Aircraft | 2013 | 100 | 6,667 | 3,333 | 平均类别准确率 | 项目 |
Facial Emotion | 2013 | 8 | 32,140 | 3,574 | 准确率 | 项目 |
Rendered SST2 | 2013 | 2 | 7,792 | 1,821 | 准确率 | 项目 |
Describable Textures | 2014 | 47 | 3,760 | 1,880 | 准确率 | 项目 |
Food-101 | 2014 | 101 | 75,750 | 25,250 | 准确率 | 项目 |
Birdsnap | 2014 | 500 | 42,283 | 2,149 | 准确率 | 项目 |
RESISC45 | 2017 | 45 | 3,150 | 25,200 | 准确率 | 项目 |
CLEVR Counts | 2017 | 8 | 2,000 | 500 | 准确率 | 项目 |
PatchCamelyon | 2018 | 2 | 294,912 | 32,768 | 准确率 | 项目 |
EuroSAT | 2019 | 10 | 10,000 | 5,000 | 准确率 | 项目 |
Hateful Memes | 2020 | 2 | 8,500 | 500 | ROC AUC | 项目 |
Country211 | 2021 | 211 | 43,200 | 21,100 | 准确率 | 项目 |
图像-文本检索
动作识别
数据集 | 年份 | 类别 | 训练集 | 测试集 | 评估指标 | 项目 |
---|---|---|---|---|---|---|
UCF101 | 2012 | 101 | 9,537 | 1,794 | 准确率 | 项目 |
Kinetics700 | 2019 | 700 | 494,801 | 31,669 | 平均 (top1, top5) | 项目 |
RareAct | 2020 | 122 | 7,607 | - | mWAP, mSAP | 项目 |
目标检测
数据集 | 年份 | 类别 | 训练集 | 测试集 | 评估指标 | 项目 |
---|---|---|---|---|---|---|
COCO 2014 Detection | 2014 | 80 | 83,000 | 41,000 | Box mAP | 项目 |
COCO 2017 Detection | 2017 | 80 | 118,000 | 5,000 | Box mAP | 项目 |
LVIS | 2019 | 1203 | 118,000 | 5,000 | Box mAP | 项目 |
ODinW | 2022 | 314 | 132,413 | 20,070 | Box mAP | 项目 |
语义分割
数据集 | 年份 | 类别 | 训练集 | 测试集 | 评估指标 | 项目 |
---|---|---|---|---|---|---|
PASCAL VOC 2012 | 2012 | 20 | 1,464 | 1,449 | mIoU | 项目 |
PASCAL Content | 2014 | 459 | 4,998 | 5,105 | mIoU | 项目 |
Cityscapes | 2016 | 19 | 2,975 | 500 | mIoU | 项目 |
ADE20k | 2017 | 150 | 25,574 | 2,000 | mIoU | 项目 |
视觉-语言预训练方法
对比目标的预训练
预训练与生成目标
预训练与对齐目标
视觉-语言模型迁移学习方法
带提示调优的迁移
带文本提示调优的迁移
Transfer with Visual Prompt Tuning
Transfer with Text and Visual Prompt Tuning
论文标题 | 发表时间 | 代码/项目 |
---|---|---|
UPT: Unified Vision and Language Prompt Learning | arXiv 2022 | 代码 |
MVLPT: Multitask Vision-Language Prompt Tuning | arXiv 2022 | 代码 |
CAVPT: Dual Modality Prompt Tuning for Vision-Language Pre-Trained Model | arXiv 2022 | 代码 |
MaPLe: Multi-modal Prompt Learning | CVPR 2023 | 代码 |
Transfer with Feature Adapter
视觉-语言模型知识蒸馏方法
用于对象检测的知识蒸馏
用于语义分割的知识蒸馏
论文 | 发表年份 | 代码/项目 |
---|---|---|
SSIW: 在不进行任何分割示例的情况下进行“野外”语义分割 | arXiv 2021 | - |
ReCo: 用于零样本迁移的检索和共分割 | NeurIPS 2022 | 代码 |
CLIMS: 用于弱监督语义分割的跨语言图像匹配 | CVPR 2022 | 代码 |
CLIPSeg: 使用文本和图像提示进行图像分割 | CVPR 2022 | 代码 |
ZegFormer: 解耦零样本语义分割 | CVPR 2022 | 代码 |
LSeg: 由语言驱动的语义分割 | ICLR 2022 | 代码 |
ZSSeg: 使用预训练视觉-语言模型进行开放词汇语义分割的简单基线 | ECCV 2022 | 代码 |
OpenSeg: 使用图像级标签扩展开放词汇图像分割 | ECCV 2022 | 代码 |
Fusioner: 使用冻结的视觉-语言模型进行开放词汇语义分割 | BMVC 2022 | 代码 |
OVSeg: 使用蒙版调整的CLIP进行开放词汇语义分割 | CVPR 2023 | 代码 |
ZegCLIP: 适应CLIP进行零样本语义分割 | CVPR 2023 | 代码 |
CLIP也是一种高效的分割器:一种文本驱动的弱监督语义分割方法 | CVPR 2023 | 代码 |
FreeSeg: 统一、通用和开放词汇的图像分割 | CVPR 2023 | 代码 |
Mask-free OVIS: 无需手动蒙版注释的开放词汇实例分割 | CVPR 2023 | 代码 |
在没有人为标签的情况下探索开放词汇语义分割 | arXiv 2023 | - |
OpenVIS: 开放词汇视频实例分割 | arXiv 2023 | - |
Segment Anything 是一种用于弱监督语义分割的优秀伪标签生成器 | arXiv 2023 | - |
使用 Segment Anything Model (SAM) 增强伪标签进行弱监督语义分割 | arXiv 2023 | 代码 |
即插即用,无密集标签:从视觉-语言模型中提取开放词汇语义分割 | arXiv 2023 | - |
SegPrompt: 通过类别级别的提示学习提升开放世界分割 | ICCV 2023 | 代码 |
ICPC: 使用对比学习进行实例条件提示的语义分割 | arXiv 2023 | - |
卷积死得很难:使用单一冻结卷积CLIP进行开放词汇分割 | arXiv 2023 | 代码 |
即插即用,无密集标签:从视觉-语言模型中提取开放词汇语义分割 | arXiv 2023 | - |
知识蒸馏用于其他任务
论文 | 发表年份 | 代码/项目 |
---|---|---|
控制视觉-语言模型用于通用图像修复 | arXiv 2023 | 代码 |