项目概述
Mono-InternVL-2B是一个创新的原生多模态大语言模型,由上海人工智能实验室开发。该项目将视觉编码和文本解码功能集成到单一的大语言模型中,通过独特的架构设计和训练方法,在保持语言能力的同时实现了优秀的视觉理解能力。
技术特点
创新架构设计
- 采用专家混合机制(MoE)将视觉专家模块嵌入预训练语言模型
- 通过冻结语言模型参数来保持原有语言能力
- 总参数量为3B,激活参数量为1.8B
- 基于InternLM2-Chat-1.8B模型开发
核心技术创新
- 提出内生视觉预训练(EViP)技术,实现从粗粒度到精粒度的视觉学习
- 显著降低了首个token的生成延迟,提升了67%的响应速度
- 在保持高性能的同时实现了更高效的部署效率
性能优势
综合评测结果
- 在MMVet等多个权威评测基准上表现优异
- 相比其他原生多模态模型具有显著性能优势
- 在多模态任务平均得分上达到55.2分
- 在视觉问答任务上平均得分达到70.1分
关键能力
- 优秀的图像理解与描述能力
- 强大的文本-图像交互能力
- 出色的OCR文字识别能力,在OCRBench上得分767
- 良好的视觉推理能力,在数学视觉任务上表现突出
应用场景
交互方式
- 支持纯文本对话
- 支持单图单轮对话
- 支持单图多轮对话
- 可进行图像描述、诗歌创作等多样化任务
实际应用
- 图像描述与理解
- 视觉问答
- 文档理解与分析
- 图表解读
- 数学题目解答
使用说明
- 基于Transformers框架实现
- 要求使用transformers 4.37.2版本
- 支持动态图像预处理
- 提供完整的代码示例和使用说明
- 采用MIT许可证开源发布
局限性说明
模型虽然经过安全训练,但仍可能产生意外输出,包括偏见、歧视等有害内容。使用时需注意规避这些风险,避免传播有害信息。