MG-LLaVA
MG-LLaVA是一种创新的多模态大语言模型,通过整合低分辨率、高分辨率和物体中心特征,显著提升了视觉处理能力。模型引入高分辨率视觉编码器捕捉细节,并利用Conv-Gate网络融合视觉特征。同时集成离线检测器的物体级特征,增强了物体识别能力。仅基于公开多模态数据进行指令微调,MG-LLaVA在多项基准测试中展现出优异的感知表现。