极佳-多模态-LLM
LLM引导多模态
学习中的研究趋势。
- 多模态:
- 文本、视觉(图像和视频)、音频,…
- 大型语言模型 (LLM) 主干:
- LLaMA、Alpaca、Vicuna、Bloom、GLM、OPT,…
- LLM 应该是
开源和研究友好
- 相对较小的主干(例如,BART和T5)也可以
- 学习技术:
- 全面微调、参数高效微调(Adapter、LoRA,…)
- 上下文学习、指令微调
- …
LLM引导多模态模型
的例子:- OpenFlamingo、MiniGPT-4、Otter、InstructBILP、BLIVA…
多模态LLM
评估的例子:- MultiInstruct、POPE、AttackVLM,…
2023年8月
-
BLIVA:一种简单的多模态LLM,能够更好地处理文本丰富的视觉问题。arXiv:2308.09936。
胡文博、徐一帆、李易、李维岳、陈泽远、涂卓文。 [论文] [代码]
主干
:Vicuna-7B 和 Flan-T5-XXL (11B)。
2023年6月
-
LLaVA-Med:在一天内训练一个用于生物医学的大型语言与视觉助手。arXiv:2306.00890。
李春元、王克里夫、张盛、鵜山直人、刘昊天、杨坚伟、诺曼·特里斯塔、彭海锋、高建峰。 [论文] [代码]
主干
:基于LLaVA(使用Vicuna-13B)。 -
Ziya-Visual。
张佳星、甘如怡、王俊杰、张玉祥、张琳、杨平、高新宇、吴子威、董晓群、贺俊青、卓建恒、杨奇、黄永峰、李霞玉、吴杨瀚、陆俊宇、朱心宇、陈伟峰、韩婷、潘坤豪、王睿、王昊、吴晓军、曾重申、陈冲。 [论文] [代码]
主干
:基于Ziya-LLaMA-13B-v1。 -
Video-LLaMA:一个用于视频理解的指令微调视觉语言模型。arXiv:2306.02858。
主干
:Vicuna-7B 和 Vicuna-13B。
2023年5月
-
跨LLM的视觉提示生成器迁移。arXiv:2305.01278。
张敖、费浩、姚源、冀伟、李莉、刘志远、蔡祖声。 [论文] [代码]
主干
:OPT (125M、350M、1.3B 和 2.7B) 及 Flan-T5 (base、large 及 XL)。 -
LMEye:一个互动感知网络用于大型语言模型。arXiv:2305.03701。
主干
:LLaMA-7B、LLaMA-13B 和 Bloomz-7B。 -
Otter:一个具有上下文指令微调的多模态模型。arXiv:2305.03726。
李博、张元汉、陈梁宇、王敬豪、杨景康、刘子炜。 [论文] [代码]
主干
:基于OpenFlamingo-9B。 -
X-LLM:将多模态当作外语处理来引导高级大型语言模型。arXiv:2305.04160。
陈飞龙、韩明伦、赵昊志、张庆阳、石晶、徐双、徐波。 [论文] [代码]
主干
:ChatGLM。 -
MultiModal-GPT:一个与人类对话的视觉语言模型。arXiv:2305.04790。
龚涛、吕成琪、张世龙、王雨冬、郑淼、赵谦、刘魁坤、张文伟、骆平、陈凯。 [论文] [代码]
主干
:基于OpenFlamingo。 -
VideoChat:以聊天为中心的视频理解。arXiv:2305.06355。
李堃昌、何宜南、王艺、李依卓、王文海、骆平、王亚丽、李明、乔宇。 [论文] [代码]
主干
:基于MiniGPT-4、MOSS 和 StableLM。 -
InstructBLIP:通过指令调优朝向通用视觉语言模型。arXiv:2305.06500。
戴文良、李俊楠、李东旭、钟铭华、赵俊琦、王唯胜、李博扬、钟海清、霍志韦、候国明。 [论文] [代码]
主干
:Flan-T5-XL (3B)、Flan-T5-XXL (11B)、Vicuna-7B和Vicuna-13B。 -
ArtGPT-4:通过适配器增强MiniGPT-4的艺术视觉语言理解。arXiv:2305.07490。
袁正卿、薛慧文、王新艺、刘永明、赵转哲、王坤。 [论文] [代码]
主干
:基于MiniGPT-4。 -
评估大型视觉语言模型的对象幻觉。arXiv:2305.10355。
李一帆、杜一帆、周坤、王金鹏、赵鑫磊、温吉熙。 [论文] [代码]
评估
-
EmbodiedGPT:通过具现化的思维链进行视觉语言预训练。arXiv:2305.15021。
穆尧、张青龙、胡猛康、王文海、丁明宇、金俊、王斌、戴吉锋、乔宇、骆平。 [论文] [代码]
主干
:LLaMA-7B。 -
廉价快捷:高效的视觉语言指令调优大型语言模型。arXiv:2305.15023。
罗根、周依依、任天河、陈生欣、孙晓帅、季荣荣。 [论文] [代码]
主干
:LLaMA-7B 和 LLaMA-13B。 -
评估大型视觉语言模型的对抗性鲁棒性。arXiv:2305.16934。
赵云清、庞天宇、杜超、杨晓、李崇暄、张志辉、林敏。 [论文] [代码]
评估
-
VisualGLM-6B。
ChatGLM团队。 [论文] [代码]
主干
:ChatGLM-6B。 -
用多模态语言模型生成图像。arXiv:2305.17216。
连俊宇、李志远、程伟琦。 [论文] [代码]
主干
:OPT-6.7B。
2023年4月
-
视觉指令调优。arXiv:2304.08485。
主干
:Vicuna-13B。 -
MiniGPT-4:通过高级大型语言模型增强视觉语言理解。arXiv:2304.10592。
主干
:Vicuna-7B。 -
mPLUG-Owl:模块化赋能大型语言模型的多模态性。arXiv:2304.14178。
叶晴、徐海洋、徐国海、业家宝、闫明、周懿扬、王俊杨、胡安文、石鹏成、石亚亚、李成亮、李原红、陈和红、田俊峰、齐千、张琦、黄飞。 [论文] [代码]
主干
:LLaMA-7B。 -
LLaMA-Adapter V2:参数高效的视觉指令模型。arXiv:2304.15010。
高鹏、韩佳明、张仁锐、林子仪、耿士杰、周傲军、张伟、卢攀、何从辉、岳湘宇、李宏生、乔玉。 [论文] [代码]
主干
:LLaMA-7B。
2023年1月至3月
-
BLIP-2:通过冻结的图像编码器和大型语言模型引导语言图像预训练。arXiv:2301.12597。
主干
:OPT-2.7B、OPT-6.7B、FLAN-T5-XL 和 FLAN-T5-XXL。 -
将语言模型锚定到图像以实现多模态输入和输出。arXiv:2301.13823。ICML2023。
主干
:OPT-6.7B。 -
语言不代表所谓一切:将感知与语言模型对齐。arXiv:2302.14045。
黄少桓、董立伟、王文辉、郝亚茹、辛格尔、马舒明、吕腾超、崔磊、穆罕默德汗、帕特拉、刘强、阿格瓦尔、赤泽问、薄乔韩、查德里、苏姆、宋晓、中国工程、中科院。 [论文] [代码]
主干
:MAGNETO。 -
PaLM-E:具身多模态语言模型。arXiv:2303.03378。
德里斯、夏菲、萨杰迪、林克、乔德里、伊赫特、韦洪、汤普森、武全、余天鹤、黄伟伦、车延京、谢尔曼、达克沃斯、莱文、范厚克、哈斯曼、图桑、格里夫、曾安迪、莫德、弗洛伦斯 皮特。 [论文] [代码]
主干
:PaLM-8B、PaLM-62B 和 PaLM-540B。 -
OpenFlamingo。 Awadalla, Anas 和 Gao, Irena 和 Gardner, Joshua 和 Hessel, Jack 和 Hanafy, Yusuf 和 Zhu, Wanrong 和 Marathe, Kalyani 和 Bitton, Yonatan 和 Gadre, Samir 和 Jitsev, Jenia 和 Kornblith, Simon 和 Koh, Pang Wei 和 Ilharco, Gabriel 和 Wortsman, Mitchell 和 Schmidt, Ludwig. [论文] [代码]
Backbone
: LLaMA-7B. -
LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention. arXiv:2303.16199.
Renrui Zhang, Jiaming Han, Aojun Zhou, Xiangfei Hu, Shilin Yan, Pan Lu, Hongsheng Li, Peng Gao, Yu Qiao. [论文] [代码]
Backbone
: LLaMA-7B.
2022
-
VL-Adapter: Parameter-Efficient Transfer Learning for Vision-and-Language Tasks. arXiv:2112.06825. CVPR 2022.
Yi-Lin Sung, Jaemin Cho, Mohit Bansal. [论文] [代码]
Backbone
: BART 和 T5. -
HyperPELT: Unified Parameter-Efficient Language Model Tuning for Both Language and Vision-and-Language Tasks. arXiv:2203.03878.
Zhengkun Zhang, Wenya Guo, Xiaojun Meng, Yasheng Wang, Yadao Wang, Xin Jiang, Qun Liu, Zhenglu Yang. [论文] [代码]
Backbone
: T5. -
Flamingo: a Visual Language Model for Few-Shot Learning. arXiv:2204.14198. NeurIPS 2022.
Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katie Millican, Malcolm Reynolds, Roman Ring, Eliza Rutherford, Serkan Cabi, Tengda Han, Zhitao Gong, Sina Samangooei, Marianne Monteiro, Jacob Menick, Sebastian Borgeaud, Andrew Brock, Aida Nematzadeh, Sahand Sharifzadeh, Mikolaj Binkowski, Ricardo Barreira, Oriol Vinyals, Andrew Zisserman, Karen Simonyan. [论文] [代码]
Backbone
: Chinchilla-70B. -
LST: Ladder Side-Tuning for Parameter and Memory Efficient Transfer Learning. arXiv:2206.06522. NeurIPS 2022.
Yi-Lin Sung, Jaemin Cho, Mohit Bansal. [论文] [代码]
Backbone
: T5. -
Zero-Shot Video Question Answering via Frozen Bidirectional Language Models. arXiv:2206.08155. NeurIPS 2022.
Antoine Yang, Antoine Miech, Josef Sivic, Ivan Laptev, Cordelia Schmid. [论文] [代码]
Backbone
: DeBERTa-V2-XLarge. -
MultiInstruct: Improving Multi-Modal Zero-Shot Learning via Instruction Tuning. arXiv:2212.10773.
Zhiyang Xu, Ying Shen, Lifu Huang. [论文] [代码]
Evaluation
2021
-
Unifying Vision-and-Language Tasks via Text Generation. arXiv:2102.02779. ICML 2021.
Jaemin Cho, Jie Lei, Hao Tan, Mohit Bansal. [论文] [代码]
Backbone
: BART 和 T5. -
Multimodal Few-Shot Learning with Frozen Language Models. arXiv:2106.13884. NeurIPS 2021.
Maria Tsimpoukelli, Jacob Menick, Serkan Cabi, S. M. Ali Eslami, Oriol Vinyals, Felix Hill. [论文] [代码]
Backbone
: Transformer-7B.
Useful Links
目前,大多数多模态 LLM 是视觉和语言的结合。
视觉和语言 LLM = LLM 骨干网 + 视觉骨干网。
以下是一些有用的链接,供您参考:
-
https://github.com/eugeneyan/open-llms
LLM 骨干网列表(特别是开源 LLM)。
-
https://github.com/bethgelab/model-vs-human
视觉骨干网列表(例如,ViT-22B 和 ViT-L)。
-
https://github.com/zhengzangw/awesome-huge-models
LLM 和视觉骨干网列表。
-
https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
HuggingFace LLM 排行榜。
-
https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models
多模态 LLM 学习和工具(例如,Visual ChatGPT 和 HuggingGPT)及数据集列表。
-
具有前沿论文的 AI 研究趋势。
贡献
欢迎随时进行拉取请求!LLM 引导的多模态
学习是唯一的限制。
请使用以下格式更新论文信息:
如需关于 Twitter 上 LLM 引导的多模态学习的有趣新闻,您也可以 @Zi_Yuan_Hu 来关注并在我们的 Awesome-Multimodal-LLM GitHub 仓库中更新。
希望大家享受 LLM 引导的未来 :)