InternVL2-40B - 强化跨模态大语言模型的能力

InternVL2-40B项目介绍

简介

InternVL2-40B是InternVL系列中最新的多模态大语言模型之一。该模型以指导调优（instruction-tuning）技术为基础，具有多模态能力，包括处理文本文档、图表理解、信息图问答、场景文本理解、OCR任务、科学与数学问题解决，以及文化理解等功能。InternVL2-40B在多种任务上的性能超越了大多数开源模型，甚至媲美商业专有模型。

模型特点

InternVL2-40B模型由InternViT-6B-448px-V1-5和Nous-Hermes-2-Yi-34B组成，可处理包括长文本、多张图片以及视频内容。其训练使用了8k的上下文窗口，使它在处理复杂输入时表现卓越。

性能表现

图片基准测试

InternVL2-40B在多项评测中表现突出：

在DocVQA、ChartQA等任务中，具有较高的问答准确率。
在OCRBench测试中，相比其他模型表现更佳。
MathVista中适合数学题解答，其得分为63.7。

详见评估指南。

视频基准测试

在视频处理方面，InternVL2-40B同样表现出色。该模型在MVBench和Video-MME任务中展现了优异的多帧分析能力。

定位基准测试

InternVL2-40B在RefCOCO、RefCOCO+等多种定位任务中，在命中精度上进行了较为出色的表现。

使用指南

模型加载

InternVL2-40B可以通过transformers库方便地加载。以下是加载模型的基本示例代码：

import torch
from transformers import AutoTokenizer, AutoModel
path = "OpenGVLab/InternVL2-40B"
model = AutoModel.from_pretrained(
    path,
    torch_dtype=torch.bfloat16,
    low_cpu_mem_usage=True,
    use_flash_attn=True,
    trust_remote_code=True).eval().cuda()

多GPU支持

InternVL2-40B支持多GPU操作，适用于大规模模型推理场景。这通过将模型的第一层和最后一层置于相同设备上来实现，从而防止跨设备的张量错误。

使用体验

用户可以通过在线演示直接体验InternVL2系列模型的强大功能。

免责声明

尽管我们在训练阶段努力确保模型的安全性，但InternVL2-40B由于其生成模式的概率性，可能会生成不符合预期的输出，例如偏见、歧视或其他有害内容。因此，我们不对传播不合适内容的后果负责。

评价邀请

我们欢迎MLLM基准开发者对InternVL1.5和InternVL2系列模型进行评估。如需添加评估结果，请联系我们：wztxy89@163.com。