#多粒度视觉指令调优

MG-LLaVA - 融合多粒度视觉特征的大语言模型

MG-LLaVA多粒度视觉指令调优多模态大语言模型视觉处理性能提升Github开源项目

MG-LLaVA是一种创新的多模态大语言模型，通过整合低分辨率、高分辨率和物体中心特征，显著提升了视觉处理能力。模型引入高分辨率视觉编码器捕捉细节，并利用Conv-Gate网络融合视觉特征。同时集成离线检测器的物体级特征，增强了物体识别能力。仅基于公开多模态数据进行指令微调，MG-LLaVA在多项基准测试中展现出优异的感知表现。

相关文章

Article Cover

MG-LLaVA: 突破视觉理解边界的多粒度视觉指令微调模型

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号