#多粒度视觉指令调优

MG-LLaVA: 突破视觉理解边界的多粒度视觉指令微调模型

3 个月前

MG-LLaVA 多粒度视觉指令调优多模态大语言模型视觉处理性能提升 Github 开源项目

3 个月前

相关项目

MG-LLaVA

MG-LLaVA是一种创新的多模态大语言模型，通过整合低分辨率、高分辨率和物体中心特征，显著提升了视觉处理能力。模型引入高分辨率视觉编码器捕捉细节，并利用Conv-Gate网络融合视觉特征。同时集成离线检测器的物体级特征，增强了物体识别能力。仅基于公开多模态数据进行指令微调，MG-LLaVA在多项基准测试中展现出优异的感知表现。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com