#多模态GPT

Multimodal-GPT入门学习资料 - 训练视觉语言对话模型的开源项目

2 个月前

2 个月前

3 个月前

3 个月前

相关项目

Multimodal-GPT

Multimodal-GPT是一个基于OpenFlamingo多模态模型的项目，通过结合视觉指令和语言指令数据的联合训练，有效提升模型性能。该项目支持VQA、图像描述、视觉推理、文本OCR和视觉对话等多种数据类型，并利用LoRA进行参数高效的微调。探索Multimodal-GPT的广泛应用可能性。

投诉举报邮箱: service@vectorlightyear.com