VLM_survey

Awesome Vision-Language Models

这是视觉任务的视觉语言模型：综述的代码库, 系统性地调查了在各种视觉识别任务中VLM研究，包括图像分类、目标检测、语义分割等。详情请参考:

视觉任务的视觉语言模型：综述 [论文]

IEEE模式分析与机器智能交易 (TPAMI), 2024

如果您发现这里没有收录的相关论文，欢迎提交请求或联系我们。

提交请求的流程如下：

a. 将项目fork到您自己的代码库。
b. 在 README.md 中使用以下格式添加标题、论文链接、会议、项目/代码链接：

  |[标题](论文链接)|会议|[代码/项目](代码/项目链接)|

c. 提交请求到此分支。

🔥 新闻

最后更新于2024年7月24日

VLM预训练方法

[CVPR 2024] 通过聚类掩码实现高效的视觉语言预训练 [论文][代码]
[CVPR 2024] 迈向更好的视觉启发的视觉语言模型 [论文]
[CVPR 2024] 非自回归序列到序列的视觉语言模型 [论文]
[CVPR 2024] ViTamin: 设计可扩展的视觉语言时代视觉模型 [论文][代码]
[CVPR 2024] 迭代学习提高大视觉语言模型的组合性 [论文]
[CVPR 2024] FairCLIP: 在视觉语言学习中利用公平性 [论文][代码]
[CVPR 2024] InternVL: 扩展视觉基础模型并对齐通用视觉语言任务 [论文][代码]
[CVPR 2024] VILA: 视觉语言模型预训练研究 [论文]
[CVPR 2024] 用生成区域-语言预训练进行开放式目标检测 [论文][代码]
[CVPR 2024] 通过丰富的监督增强视觉语言预训练 [论文]
[ICLR 2024] 通过动态离散视觉量化在大语言模型中实现统一的语言-视觉预训练 [论文][代码]
[ICLR 2024] MMICL: 通过多模态情境学习增强视觉语言模型 [论文][代码]
[ICLR 2024] 检索增强的对比视觉-文本模型 [论文]

VLM迁移学习方法

[ECCV 2024] CLAP: 通过增强式提示的对比学习分离内容和样式 [论文][代码]
[ECCV 2024] FALIP: 视觉提示作为中央视觉增强提升CLIP的零样本性能 [论文][代码]
[ECCV 2024] GalLoP: 学习视觉语言模型的全局和局部提示 [论文]
[ECCV 2024] 注意干扰：在视觉语言模型参数高效持续学习中保持预训练知识 [论文][代码]
[CVPR 2024] 一个提示词足以提升预训练视觉语言模型的对抗鲁棒性 [论文][代码]
[CVPR 2024] 通用分布的任何偏移提示 [论文]
[CVPR 2024] 深入探讨大型视觉语言模型的少样本适应 [论文][代码]
[CVPR 2024] 基于锚点的视觉语言模型鲁棒微调 [论文]
[CVPR 2024] 预训练视觉和语言变压器是少样本增量学习者 [论文][代码]
[CVPR 2024] 视觉情境提示 [论文][代码]
[CVPR 2024] TCP:基于文本的类别感知提示调优视觉语言模型 [论文][代码]
[CVPR 2024] 视觉语言模型的高效测试时适应 [论文][代码]
[CVPR 2024] 双记忆网络：视觉语言模型的多功能适应方法 [论文][代码]
[ICLR 2024] DePT: 通过分解提示调优实现参数高效微调 [论文][代码]
[ICLR 2024] Nemesis: 标准化视觉语言模型的软提示向量 [论文]
[ICLR 2024] 用于持续学习的提示梯度投影 [论文]
[ICLR 2024] 一张图值千词：跨提示在视觉语言模型上对抗图片的可转移性 [论文]
[ICLR 2024] Matcher: 使用通用特征匹配进行单次段落任何东西 [论文][代码]
[ICLR 2024] 在联邦学习中为视觉语言模型生成的文本驱动提示 [论文]
[ICLR 2024] 一致性指导的视觉语言模型提示学习 [论文]
[ICLR 2024] C-TPT: 通过文本特征分散进行视觉语言模型的校准测试时提示调优 [论文]
[arXiv 2024] 学习提示分割任何模型 [论文]

VLM知识蒸馏用于检测

[CVPR 2024] RegionGPT: 迈向区域理解的视觉语言模型 [论文][代码]
[ICLR 2024] LLMs遇见VLMs：用细粒度描述提升开放词汇物体检测 [论文]
[ICLR 2024] Ins-DetCLIP: 对齐检测模型以遵循人类语言指令 [论文]

VLM知识蒸馏用于分割

[ICLR 2024] CLIPSelf: 视觉变压器为开放词汇密集预测提供自我蒸馏 [论文]

VLM知识蒸馏用于其他视觉任务

[ICLR 2024] FROSTER: 冻结的CLIP是开放词汇动作识别的强教师 [论文][项目]
[ICLR 2024] AnomalyCLIP: 用于零样本异常检测的对象无关提示学习 [论文][代码]

摘要

大多数视觉识别研究在深度神经网络（DNN）训练中严重依赖于人群标注数据，通常为每个单一视觉识别任务训练一个DNN，导致费力且耗时的视觉识别范式。为了解决这两个挑战，最近对视觉语言模型（VLM）进行了深入研究，通过几乎无限可用的网络规模图像-文本对学习丰富的视觉语言关联，并使用单个VLM在各种视觉识别任务上实现零样本预测。本文对各种视觉识别任务中的视觉语言模型进行了系统综述，包括：(1) 介绍视觉识别范式发展的背景；(2) 总结广泛采用的网络架构、预训练目标和下游任务的VLM基础；(3) 在VLM预训练和评估中使用的广泛数据集；(4) 对现有VLM预训练方法、VLM迁移学习方法和VLM知识蒸馏方法的回顾和分类；(5) 对各方法的基准测试、分析和讨论；(6) 未来VLM研究中的几个研究挑战和潜在研究方向。

引用

如果您觉得我们的工作对您的研究有帮助，请考虑引用：

@article{zhang2024vision,
  title={视觉任务的视觉语言模型：综述},
  author={张静怡，黄嘉兴，金盛，鲁世杰},
  journal={IEEE模式分析与机器智能交易},
  year={2024},
  publisher={IEEE}
}

数据集

VLM预训练数据集

数据集	年份	图像-文本对数量	语言	项目
SBU Caption	2011	1M	英语	项目
COCO Caption	2016	1.5M	英语	项目
Yahoo Flickr Creative Commons 100 Million	2016	100M	英语	项目
Visual Genome	2017	5.4M	英语	项目
Conceptual Captions 3M	2018	3.3M	英语	项目
Localized Narratives	2020	0.87M	英语	项目
Conceptual 12M	2021	12M	英语	项目
Wikipedia-based Image Text	2021	37.6M	108种语言	项目
Red Caps	2021	12M	英语	项目
LAION400M	2021	400M	英语	项目
LAION5B	2022	5B	超过100种语言	项目
WuKong	2022	100M	中文	项目
CLIP	2021	400M	英语	-
ALIGN	2021	1.8B	英语	-
FILIP	2021	300M	英语	-
WebLI	2022	12B	英语	-

VLM评估数据集

图像分类

数据集	年份	类别	训练集	测试集	评估指标	项目
MNIST	1998	10	60,000	10,000	准确率	项目
Caltech-101	2004	102	3,060	6,085	平均类别准确率	项目
PASCAL VOC 2007	2007	20	5,011	4,952	11点mAP	项目
Oxford 102 Flowers	2008	102	2,040	6,149	平均类别准确率	项目
CIFAR-10	2009	10	50,000	10,000	准确率	项目
CIFAR-100	2009	100	50,000	10,000	准确率	项目
ImageNet-1k	2009	1000	1,281,167	50,000	准确率	项目
SUN397	2010	397	19,850	19,850	准确率	项目
SVHN	2011	10	73,257	26,032	准确率	项目
STL-10	2011	10	1,000	8,000	准确率	项目
GTSRB	2011	43	26,640	12,630	准确率	项目
KITTI Distance	2012	4	6,770	711	准确率	项目
IIIT5k	2012	36	2,000	3,000	准确率	项目
Oxford-IIIT PETS	2012	37	3,680	3,669	平均类别准确率	项目
Stanford Cars	2013	196	8,144	8,041	准确率	项目
FGVC Aircraft	2013	100	6,667	3,333	平均类别准确率	项目
Facial Emotion	2013	8	32,140	3,574	准确率	项目
Rendered SST2	2013	2	7,792	1,821	准确率	项目
Describable Textures	2014	47	3,760	1,880	准确率	项目
Food-101	2014	101	75,750	25,250	准确率	项目
Birdsnap	2014	500	42,283	2,149	准确率	项目
RESISC45	2017	45	3,150	25,200	准确率	项目
CLEVR Counts	2017	8	2,000	500	准确率	项目
PatchCamelyon	2018	2	294,912	32,768	准确率	项目
EuroSAT	2019	10	10,000	5,000	准确率	项目
Hateful Memes	2020	2	8,500	500	ROC AUC	项目
Country211	2021	211	43,200	21,100	准确率	项目

图像-文本检索

数据集	年份	类别	训练集	测试集	评估指标	项目
Flickr30k	2014	-	31,783	-	召回率	项目
COCO Caption	2015	-	82,783	5,000	召回率	项目

动作识别

数据集	年份	类别	训练集	测试集	评估指标	项目
UCF101	2012	101	9,537	1,794	准确率	项目
Kinetics700	2019	700	494,801	31,669	平均 (top1, top5)	项目
RareAct	2020	122	7,607	-	mWAP, mSAP	项目

目标检测

数据集	年份	类别	训练集	测试集	评估指标	项目
COCO 2014 Detection	2014	80	83,000	41,000	Box mAP	项目
COCO 2017 Detection	2017	80	118,000	5,000	Box mAP	项目
LVIS	2019	1203	118,000	5,000	Box mAP	项目
ODinW	2022	314	132,413	20,070	Box mAP	项目

语义分割

数据集	年份	类别	训练集	测试集	评估指标	项目
PASCAL VOC 2012	2012	20	1,464	1,449	mIoU	项目
PASCAL Content	2014	459	4,998	5,105	mIoU	项目
Cityscapes	2016	19	2,975	500	mIoU	项目
ADE20k	2017	150	25,574	2,000	mIoU	项目

视觉-语言预训练方法

对比目标的预训练

论文标题	发表会议	代码/项目
CLIP: Learning Transferable Visual Models From Natural Language Supervision	ICML 2021	代码
ALIGN: Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision	ICML 2021	-
OTTER: Data Efficient Language-Supervised Zero-Shot Recognition with Optimal Transport Distillation	arXiv 2021	代码
Florence: A New Foundation Model for Computer Vision	arXiv 2021	-
RegionClip: Region-based Language-Image Pretraining	arXiv 2021	代码
DeCLIP: Supervision Exists Everywhere: A Data Efficient Contrastive Language-Image Pre-training Paradigm	ICLR 2022	代码
FILIP: Fine-grained Interactive Language-Image Pre-Training	ICLR 2022	-
KELIP: Large-scale Bilingual Language-Image Contrastive Learning	ICLRW 2022	代码
ZeroVL: Contrastive Vision-Language Pre-training with Limited Resources	ECCV 2022	代码
SLIP: Self-supervision meets Language-Image Pre-training	ECCV 2022	代码
UniCL: Unified Contrastive Learning in Image-Text-Label Space	CVPR 2022	代码
LiT: Zero-Shot Transfer with Locked-image text Tuning	CVPR 2022	代码
GroupViT: Semantic Segmentation Emerges from Text Supervision	CVPR 2022	代码
PyramidCLIP: Hierarchical Feature Alignment for Vision-language Model Pretraining	NeurIPS 2022	-
UniCLIP: Unified Framework for Contrastive Language-Image Pre-training	NeurIPS 2022	-
K-LITE: Learning Transferable Visual Models with External Knowledge	NeurIPS 2022	代码
FIBER: Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone	NeurIPS 2022	代码
Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese	arXiv 2022	代码
AltCLIP: Altering the Language Encoder in CLIP for Extended Language Capabilities	arXiv 2022	代码
SegCLIP: Patch Aggregation with Learnable Centers for Open-Vocabulary Semantic Segmentation	arXiv 2022	代码
NLIP: Noise-robust Language-Image Pre-training	AAAI 2023	-
PaLI: A Jointly-Scaled Multilingual Language-Image Model	ICLR 2023	项目
HiCLIP: Contrastive Language-Image Pretraining with Hierarchy-aware Attention	ICLR 2023	代码
CLIPPO: Image-and-Language Understanding from Pixels Only	CVPR 2023	代码
RA-CLIP: Retrieval Augmented Contrastive Language-Image Pre-training	CVPR 2023	-
DeAR: Debiasing Vision-Language Models with Additive Residuals	CVPR 2023	-
Filtering, Distillation, and Hard Negatives for Vision-Language Pre-Training	CVPR 2023	代码
LaCLIP: Improving CLIP Training with Language Rewrites	NeurIPS 2023	代码
ALIP: Adaptive Language-Image Pre-training with Synthetic Caption	ICCV 2023	代码
GrowCLIP: Data-aware Automatic Model Growing for Large-scale Contrastive Language-Image Pre-training	ICCV 2023	-
CLIPpy: Perceptual Grouping in Contrastive Vision-Language Models	ICCV 2023	-

预训练与生成目标

论文标题	发表会议	代码/项目
FLAVA: A Foundational Language And Vision Alignment Model	CVPR 2022	代码
CoCa: Contrastive Captioners are Image-Text Foundation Models	arXiv 2022	代码
Too Large; Data Reduction for Vision-Language Pre-Training	arXiv 2023	代码
SAM: Segment Anything	arXiv 2023	代码
SEEM: Segment Everything Everywhere All at Once	arXiv 2023	代码
Semantic-SAM: Segment and Recognize Anything at Any Granularity	arXiv 2023	代码

预训练与对齐目标

论文标题	发表会议	代码/项目
GLIP: Grounded Language-Image Pre-training	CVPR 2022	代码
DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for Open-world Detection	NeurIPS 2022	-
nCLIP: Non-Contrastive Learning Meets Language-Image Pre-Training	CVPR 2023	代码

视觉-语言模型迁移学习方法

带提示调优的迁移

带文本提示调优的迁移

论文标题	发表时间	代码/项目
CoOp: Learning to Prompt for Vision-Language Models	IJCV 2022	代码
CoCoOp: Conditional Prompt Learning for Vision-Language Models	CVPR 2022	代码
ProDA: Prompt Distribution Learning	CVPR 2022	-
DenseClip: Language-Guided Dense Prediction with Context-Aware Prompting	CVPR 2022	代码
TPT: Test-time prompt tuning for zero-shot generalization in vision-language models	NeurIPS 2022	代码
DualCoOp: Fast Adaptation to Multi-Label Recognition with Limited Annotations	NeurIPS 2022	代码
CPL: Counterfactual Prompt Learning for Vision and Language Models	EMNLP 2022	代码
Bayesian Prompt Learning for Image-Language Model Generalization	arXiv 2022	-
UPL: Unsupervised Prompt Learning for Vision-Language Models	arXiv 2022	代码
ProGrad: Prompt-aligned Gradient for Prompt Tuning	arXiv 2022	代码
SoftCPT: Prompt Tuning with Soft Context Sharing for Vision-Language Models	arXiv 2022	代码
SubPT: Understanding and Mitigating Overfitting in Prompt Tuning for Vision-Language Models	TCSVT 2023	代码
LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of Vision & Language Models	CVPR 2023	代码
LMPT: Prompt Tuning with Class-Specific Embedding Loss for Long-tailed Multi-Label Visual Recognition	arXiv 2023	代码
Texts as Images in Prompt Tuning for Multi-Label Image Recognition	CVPR 2023	代码
Visual-Language Prompt Tuning with Knowledge-guided Context Optimization	CVPR 2023	代码
Learning to Name Classes for Vision and Language Models	CVPR 2023	-
PLOT: Prompt Learning with Optimal Transport for Vision-Language Models	ICLR 2023	代码
CuPL: What does a platypus look like? Generating customized prompts for zero-shot image classification	ICCV 2023	代码
ProTeCt: Prompt Tuning for Hierarchical Consistency	arXiv 2023	-
Enhancing CLIP with CLIP: Exploring Pseudolabeling for Limited-Label Prompt Tuning	arXiv 2023	代码
Why Is Prompt Tuning for Vision-Language Models Robust to Noisy Labels?	ICCV 2023	代码
Gradient-Regulated Meta-Prompt Learning for Generalizable Vision-Language Models	ICCV 2023	-
Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models	ICCV 2023	-
Read-only Prompt Optimization for Vision-Language Few-shot Learning	ICCV 2023	代码
Bayesian Prompt Learning for Image-Language Model Generalization	ICCV 2023	代码
Distribution-Aware Prompt Tuning for Vision-Language Models	ICCV 2023	代码
LPT: Long-Tailed Prompt Tuning For Image Classification	ICCV 2023	代码
Diverse Data Augmentation with Diffusions for Effective Test-time Prompt Tuning	ICCV 2023	代码
CLAP: Isolating Content from Style through Contrastive Learning with Augmented Prompts	ECCV 2024	代码

Transfer with Visual Prompt Tuning

论文标题	发表时间	代码/项目
Exploring Visual Prompts for Adapting Large-Scale Models	arXiv 2022	代码
Retrieval-Enhanced Visual Prompt Learning for Few-shot Classification	arXiv 2023	-
Fine-Grained Visual Prompting	arXiv 2023	-
LoGoPrompt: Synthetic Text Images Can Be Good Visual Prompts for Vision-Language Models	ICCV 2023	代码

Transfer with Text and Visual Prompt Tuning

论文标题	发表时间	代码/项目
UPT: Unified Vision and Language Prompt Learning	arXiv 2022	代码
MVLPT: Multitask Vision-Language Prompt Tuning	arXiv 2022	代码
CAVPT: Dual Modality Prompt Tuning for Vision-Language Pre-Trained Model	arXiv 2022	代码
MaPLe: Multi-modal Prompt Learning	CVPR 2023	代码

Transfer with Feature Adapter

论文标题	发表时间	代码/项目
Clip-Adapter: Better Vision-Language Models with Feature Adapters	arXiv 2021	代码
Tip-Adapte: Training-free Adaption of CLIP for Few-shot Classification	ECCV 2022	代码
SVL-Adapter: Self-Supervised Adapter for Vision-Language Pretrained Models	BMVC 2022	代码
CLIPPR: Improving Zero-Shot Models with Label Distribution Priors	arXiv 2022	代码
SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for Few-shot Image Classification	arXiv 2022	-
SuS-X: Training-Free Name-Only Transfer of Vision-Language Models	ICCV 2023	代码
VL-PET: Vision-and-Language Parameter-Efficient Tuning via Granularity Control	ICCV 2023	代码
SAM-Adapter: Adapting SAM in Underperformed Scenes: Camouflage, Shadow, Medical Image Segmentation, and More	arXiv 2023	代码
Segment Anything in High Quality	arXiv 2023	代码
HGCLIP: Exploring Vision-Language Models with Graph Representations for Hierarchical Understanding	arXiv 2023	代码
CLAP: Contrastive Learning with Augmented Prompts for Robustness on Pretrained Vision-Language Models	arXiv 2023	-
论文	发表在	代码/项目
---------------------------------------------------	:-------------:	:------------:
VT-Clip: Enhancing Vision-Language Models with Visual-guided Texts	arXiv 2021	-
Wise-FT: Robust fine-tuning of zero-shot models	CVPR 2022	代码
MaskCLIP: Extract Free Dense Labels from CLIP	ECCV 2022	代码
MUST: Masked Unsupervised Self-training for Label-free Image Classification	ICLR 2023	代码
CALIP: Zero-Shot Enhancement of CLIP with Parameter-free Attention	AAAI 2023	代码
Semantic Prompt for Few-Shot Image Recognition	CVPR 2023	-
Prompt, Generate, then Cache: Cascade of Foundation Models makes Strong Few-shot Learners	CVPR 2023	代码
Task Residual for Tuning Vision-Language Models	CVPR 2023	代码
Deeply Coupled Cross-Modal Prompt Learning	ACL 2023	代码
Prompt Ensemble Self-training for Open-Vocabulary Domain Adaptation	arXiv 2023	-
Personalize Segment Anything Model with One Shot	arXiv 2023	代码
Chils: Zero-shot image classification with hierarchical label sets	ICML 2023	代码
Improving Zero-shot Generalization and Robustness of Multi-modal Models	CVPR 2023	代码
Exploiting Category Names for Few-Shot Classification with Vision-Language Models	ICLR W 2023	-
Beyond Sole Strength: Customized Ensembles for Generalized Vision-Language Models	arXiv 2023	代码
Regularized Mask Tuning: Uncovering Hidden Knowledge in Pre-trained Vision-Language Models	ICCV 2023	代码
PromptStyler: Prompt-driven Style Generation for Source-free Domain Generalization	ICCV 2023	代码
PADCLIP: Pseudo-labeling with Adaptive Debiasing in CLIP for Unsupervised Domain Adaptation	ICCV 2023	-
Black Box Few-Shot Adaptation for Vision-Language models	ICCV 2023	代码
AD-CLIP: Adapting Domains in Prompt Space Using CLIP	ICCVW 2023	-
Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning	arXiv 2023	代码
Language Models as Black-Box Optimizers for Vision-Language Models	arXiv 2023	-

视觉-语言模型知识蒸馏方法

用于对象检测的知识蒸馏

论文	发表在	代码/项目
ViLD: Open-vocabulary Object Detection via Vision and Language Knowledge Distillation	ICLR 2022	代码
DetPro: Learning to Prompt for Open-Vocabulary Object Detection with Vision-Language Model	CVPR 2022	代码
XPM: Open-Vocabulary Instance Segmentation via Robust Cross-Modal Pseudo-Labeling	CVPR 2022	代码
Bridging the Gap between Object and Image-level Representations for Open-Vocabulary Detection	NeurIPS 2022	代码
PromptDet: Towards Open-vocabulary Detection using Uncurated Images	ECCV 2022	代码
PB-OVD: Open Vocabulary Object Detection with Pseudo Bounding-Box Labels	ECCV 2022	代码
OV-DETR: Open-Vocabulary DETR with Conditional Matching	ECCV 2022	代码
Detic: Detecting Twenty-thousand Classes using Image-level Supervision	ECCV 2022	代码
OWL-ViT: Simple Open-Vocabulary Object Detection with Vision Transformers	ECCV 2022	代码
VL-PLM: Exploiting Unlabeled Data with Vision and Language Models for Object Detection	ECCV 2022	代码
ZSD-YOLO: Zero-shot Object Detection Through Vision-Language Embedding Alignment	arXiv 2022	代码
HierKD: Open-Vocabulary One-Stage Detection with Hierarchical Visual-Language Knowledge Distillation	arXiv 2022	代码
VLDet: Learning Object-Language Alignments for Open-Vocabulary Object Detection	ICLR 2023	代码
F-VLM: Open-Vocabulary Object Detection upon Frozen Vision and Language Models	ICLR 2023	代码
CondHead: Learning to Detect and Segment for Open Vocabulary Object Detection	CVPR 2023	-
Aligning Bag of Regions for Open-Vocabulary Object Detection	CVPR 2023	代码
Region-Aware Pretraining for Open-Vocabulary Object Detection with Vision Transformers	CVPR 2023	代码
Object-Aware Distillation Pyramid for Open-Vocabulary Object Detection	CVPR 2023	代码
CORA: Adapting CLIP for Open-Vocabulary Detection with Region Prompting and Anchor Pre-Matching	CVPR 2023	代码
DetCLIPv2: Scalable Open-Vocabulary Object Detection Pre-training via Word-Region Alignment	CVPR 2023	-
Detecting Everything in the Open World: Towards Universal Object Detection	CVPR 2023	代码
CapDet: Unifying Dense Captioning and Open-World Detection Pretraining	CVPR 2023	-
Contextual Object Detection with Multimodal Large Language Models	arXiv 2023	代码
Building One-class Detector for Anything: Open-vocabulary Zero-shot OOD Detection Using Text-image Models	arXiv 2023	代码
EdaDet: Open-Vocabulary Object Detection Using Early Dense Alignment	ICCV 2023	代码
Improving Pseudo Labels for Open-Vocabulary Object Detection	arXiv 2023	-

用于语义分割的知识蒸馏

论文	发表年份	代码/项目
SSIW: 在不进行任何分割示例的情况下进行“野外”语义分割	arXiv 2021	-
ReCo: 用于零样本迁移的检索和共分割	NeurIPS 2022	代码
CLIMS: 用于弱监督语义分割的跨语言图像匹配	CVPR 2022	代码
CLIPSeg: 使用文本和图像提示进行图像分割	CVPR 2022	代码
ZegFormer: 解耦零样本语义分割	CVPR 2022	代码
LSeg: 由语言驱动的语义分割	ICLR 2022	代码
ZSSeg: 使用预训练视觉-语言模型进行开放词汇语义分割的简单基线	ECCV 2022	代码
OpenSeg: 使用图像级标签扩展开放词汇图像分割	ECCV 2022	代码
Fusioner: 使用冻结的视觉-语言模型进行开放词汇语义分割	BMVC 2022	代码
OVSeg: 使用蒙版调整的CLIP进行开放词汇语义分割	CVPR 2023	代码
ZegCLIP: 适应CLIP进行零样本语义分割	CVPR 2023	代码
CLIP也是一种高效的分割器：一种文本驱动的弱监督语义分割方法	CVPR 2023	代码
FreeSeg: 统一、通用和开放词汇的图像分割	CVPR 2023	代码
Mask-free OVIS: 无需手动蒙版注释的开放词汇实例分割	CVPR 2023	代码
在没有人为标签的情况下探索开放词汇语义分割	arXiv 2023	-
OpenVIS: 开放词汇视频实例分割	arXiv 2023	-
Segment Anything 是一种用于弱监督语义分割的优秀伪标签生成器	arXiv 2023	-
使用 Segment Anything Model (SAM) 增强伪标签进行弱监督语义分割	arXiv 2023	代码
即插即用，无密集标签：从视觉-语言模型中提取开放词汇语义分割	arXiv 2023	-
SegPrompt: 通过类别级别的提示学习提升开放世界分割	ICCV 2023	代码
ICPC: 使用对比学习进行实例条件提示的语义分割	arXiv 2023	-
卷积死得很难：使用单一冻结卷积CLIP进行开放词汇分割	arXiv 2023	代码
即插即用，无密集标签：从视觉-语言模型中提取开放词汇语义分割	arXiv 2023	-