[ECCV2024] VisionLLaMA:用于视觉任务的统一LLaMA骨干网络
简介
大型语言模型基于transformer架构构建,用于处理文本输入。例如,LLaMA在众多开源实现中脱颖而出。同样的transformer能否用于处理2D图像?在本文中,我们通过揭示一种LLaMA式的视觉transformer(普通形式和金字塔形式),称为VisionLLaMA,来回答这个问题。VisionLLaMA是一个统一的、通用的建模框架,可用于解决大多数视觉任务。我们使用典型的预训练范式在大量下游任务中广泛评估了其有效性,特别是在图像感知和图像生成方面。在许多情况下,VisionLLaMA相比之前最先进的视觉transformer展现出显著的优势。我们相信VisionLLaMA可以作为视觉生成和理解的强大新基线模型。
生成
DITLLaMA
请参考 DiTLLaMA.md
SITLLaMA
请参考 SiTLLaMA.md
理解
使用MIM预训练
预训练说明请参考 PRETRAIN.md。
ImageNet 1k 有监督训练
请参考 ImageNet1k_SFT
ADE 20k 分割
请参考 Segmentation.md。
COCO 检测
请参考 Detection.md。
✏️ 引用
如果您发现VisionLLaMA在您的研究或应用中有用,请考虑给一个星标 ⭐ 并使用以下BibTeX进行引用:
@inproceedings{chu2024visionllama,
title={VisionLLaMA: A Unified LLaMA Backbone for Vision Tasks},
author={Chu, Xiangxiang and Su, Jianlin and Zhang, Bo and Shen, Chunhua},
booktitle={European Conference on Computer Vision},
year={2024}
}