#InternVL2
InternVL2-8B - 多模态大语言模型在图像理解、视频分析和目标定位方面的全面能力
模型开源项目HuggingfaceInternVL2推理性能指令微调Github多模态大语言模型视觉语言模型
InternVL2-8B是一个基于InternViT-300M-448px和internlm2_5-7b-chat的多模态大语言模型。该模型在文档理解、图表分析和场景文本识别等图像任务中表现优异,同时在视频理解和目标定位方面也展现出强大能力。支持8k上下文窗口,能够处理长文本、多图像和视频输入,在开源多模态模型中具有竞争力。
InternVL2-26B - 全新多模态智能体实现长文本多图像及视频的智能理解
InternVL2大语言模型多模态AI识别计算机视觉模型GithubHuggingface开源项目
InternVL2-26B是一个基于视觉模型InternViT-6B和语言模型internlm2-chat-20b开发的多模态模型。通过8K上下文窗口支持长文本处理,同时具备多图像和视频分析能力。在文档理解、图表分析和场景文字识别等评测中表现优异,性能达到开源模型领先水平。