#场景文本理解
InternVL2-40B - 强化跨模态大语言模型的能力
场景文本理解视觉理解InternVLHuggingface计算机视觉Github开源项目多模态模型
InternVL 2.0 通过融合多模态大语言模型,在文件和图表理解、信息图问答、场景文本理解和OCR任务等方面表现出色。它能够利用长文本、多图片和视频进行训练,提升对多种输入的处理效率,并提供1亿到108亿参数的多种模型可选择,与商业模型相当。在多项基准测试中,InternVL 2.0 展示了其卓越的综合理解能力。
MiniCPM-V-2 - 多模态语言模型,支持跨平台高效部署
场景文本理解MiniCPM-V深度学习HuggingfaceGithub开源项目视觉问答多模态模型
MiniCPM-V 2.0是一个多模态大模型,以高效端侧部署和可靠性为特色,支持OCRBench和TextVQA等基准测试。该模型结合RLHF多模态技术,减少幻觉生成,并能处理任意宽高比的高分辨率图像。MiniCPM-V 2.0可在多数GPU和PC上高效运行,拥有中英双语支持,并能够在移动设备上执行,提供多种部署选择。