热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#MG-LLaVA
MG-LLaVA - 融合多粒度视觉特征的大语言模型
MG-LLaVA
多粒度视觉指令调优
多模态大语言模型
视觉处理
性能提升
Github
开源项目
MG-LLaVA是一种创新的多模态大语言模型,通过整合低分辨率、高分辨率和物体中心特征,显著提升了视觉处理能力。模型引入高分辨率视觉编码器捕捉细节,并利用Conv-Gate网络融合视觉特征。同时集成离线检测器的物体级特征,增强了物体识别能力。仅基于公开多模态数据进行指令微调,MG-LLaVA在多项基准测试中展现出优异的感知表现。
1
1
相关文章
MG-LLaVA: 突破视觉理解边界的多粒度视觉指令微调模型
3 个月前
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号