#InternVL2
InternVL2-Llama3-76B - 融合视觉与语言的多模态AI模型
模型Llama3开源项目HuggingfaceInternVL2NLPGithub多模态大语言模型视觉语言模型
InternVL2-Llama3-76B是一款融合视觉和语言能力的多模态AI模型。它由InternViT-6B视觉模型和Hermes-2-Theta-Llama-3语言模型组成,在文档理解、图表分析和场景文字识别等任务中表现优异。该模型支持8k上下文窗口,可处理长文本、多图像和视频输入,为用户提供全面的多模态分析能力。
InternVL2-2B - 多模态大语言模型支持多语言及多媒体理解
模型多模态大语言模型计算机视觉人工智能GithubInternVL2Huggingface开源项目自然语言处理
InternVL2-2B是一个开源的多模态大语言模型,参数量为2.2B。该模型在文档理解、图表分析和场景文本识别等任务中表现优异,性能接近商业闭源模型。InternVL2-2B支持8K上下文窗口,可处理长文本、多图像和视频输入,大幅提升了多模态理解能力。作为一款出色的开源模型,InternVL2-2B为多模态人工智能研究和应用提供了新的可能性。
InternVL2-1B - 多模态大语言模型实现多图像和视频智能理解
模型Github开源项目HuggingfaceInternVL2自然语言处理人工智能计算机视觉多模态大语言模型
InternVL2-1B是一款新型多模态大语言模型,结合了InternViT-300M-448px视觉模型和Qwen2-0.5B-Instruct语言模型。该模型在文档理解、图表分析和场景文字识别等任务中表现优异,能有效处理长文本、多图像和视频输入。InternVL2-1B在开源多模态模型中表现突出,部分能力可与商业模型比肩。通过采用8k上下文窗口训练,该模型大幅提升了处理长输入序列的能力。
InternVL2-4B - 先进多模态大语言模型探索视觉语言理解新高度
多模态Huggingface模型指令微调大语言模型图像理解Github开源项目InternVL2
InternVL2-4B是一个多模态语言模型,集成InternViT-300M-448px视觉编码器和Phi-3-mini-128k-instruct语言模型。该模型在文档理解、图表问答和场景文字识别等任务中表现优异,超越多数开源方案。支持8K上下文窗口,可处理长文本、多图像和视频输入,在多模态能力评测中展现与商业模型相当的性能。
InternVL2-8B - 多模态大语言模型在图像理解、视频分析和目标定位方面的全面能力
模型开源项目HuggingfaceInternVL2推理性能指令微调Github多模态大语言模型视觉语言模型
InternVL2-8B是一个基于InternViT-300M-448px和internlm2_5-7b-chat的多模态大语言模型。该模型在文档理解、图表分析和场景文本识别等图像任务中表现优异,同时在视频理解和目标定位方面也展现出强大能力。支持8k上下文窗口,能够处理长文本、多图像和视频输入,在开源多模态模型中具有竞争力。
InternVL2-26B - 全新多模态智能体实现长文本多图像及视频的智能理解
InternVL2大语言模型多模态AI识别计算机视觉模型GithubHuggingface开源项目
InternVL2-26B是一个基于视觉模型InternViT-6B和语言模型internlm2-chat-20b开发的多模态模型。通过8K上下文窗口支持长文本处理,同时具备多图像和视频分析能力。在文档理解、图表分析和场景文字识别等评测中表现优异,性能达到开源模型领先水平。