#InternVL2

InternVL2-Llama3-76B - 融合视觉与语言的多模态AI模型

模型Llama3开源项目HuggingfaceInternVL2NLPGithub多模态大语言模型视觉语言模型

InternVL2-Llama3-76B是一款融合视觉和语言能力的多模态AI模型。它由InternViT-6B视觉模型和Hermes-2-Theta-Llama-3语言模型组成，在文档理解、图表分析和场景文字识别等任务中表现优异。该模型支持8k上下文窗口，可处理长文本、多图像和视频输入，为用户提供全面的多模态分析能力。

InternVL2-2B - 多模态大语言模型支持多语言及多媒体理解

模型多模态大语言模型计算机视觉人工智能GithubInternVL2Huggingface开源项目自然语言处理

InternVL2-2B是一个开源的多模态大语言模型,参数量为2.2B。该模型在文档理解、图表分析和场景文本识别等任务中表现优异,性能接近商业闭源模型。InternVL2-2B支持8K上下文窗口,可处理长文本、多图像和视频输入,大幅提升了多模态理解能力。作为一款出色的开源模型,InternVL2-2B为多模态人工智能研究和应用提供了新的可能性。

InternVL2-1B - 多模态大语言模型实现多图像和视频智能理解

模型Github开源项目HuggingfaceInternVL2自然语言处理人工智能计算机视觉多模态大语言模型

InternVL2-1B是一款新型多模态大语言模型，结合了InternViT-300M-448px视觉模型和Qwen2-0.5B-Instruct语言模型。该模型在文档理解、图表分析和场景文字识别等任务中表现优异，能有效处理长文本、多图像和视频输入。InternVL2-1B在开源多模态模型中表现突出，部分能力可与商业模型比肩。通过采用8k上下文窗口训练，该模型大幅提升了处理长输入序列的能力。

InternVL2-4B - 先进多模态大语言模型探索视觉语言理解新高度

多模态Huggingface模型指令微调大语言模型图像理解Github开源项目InternVL2

InternVL2-4B是一个多模态语言模型,集成InternViT-300M-448px视觉编码器和Phi-3-mini-128k-instruct语言模型。该模型在文档理解、图表问答和场景文字识别等任务中表现优异,超越多数开源方案。支持8K上下文窗口,可处理长文本、多图像和视频输入,在多模态能力评测中展现与商业模型相当的性能。

InternVL2-8B - 多模态大语言模型在图像理解、视频分析和目标定位方面的全面能力

模型开源项目HuggingfaceInternVL2推理性能指令微调Github多模态大语言模型视觉语言模型

InternVL2-8B是一个基于InternViT-300M-448px和internlm2_5-7b-chat的多模态大语言模型。该模型在文档理解、图表分析和场景文本识别等图像任务中表现优异，同时在视频理解和目标定位方面也展现出强大能力。支持8k上下文窗口，能够处理长文本、多图像和视频输入，在开源多模态模型中具有竞争力。

InternVL2-26B - 全新多模态智能体实现长文本多图像及视频的智能理解

InternVL2大语言模型多模态AI识别计算机视觉模型GithubHuggingface开源项目

InternVL2-26B是一个基于视觉模型InternViT-6B和语言模型internlm2-chat-20b开发的多模态模型。通过8K上下文窗口支持长文本处理，同时具备多图像和视频分析能力。在文档理解、图表分析和场景文字识别等评测中表现优异，性能达到开源模型领先水平。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号