InternVL2-40B项目介绍
简介
InternVL2-40B是InternVL系列中最新的多模态大语言模型之一。该模型以指导调优(instruction-tuning)技术为基础,具有多模态能力,包括处理文本文档、图表理解、信息图问答、场景文本理解、OCR任务、科学与数学问题解决,以及文化理解等功能。InternVL2-40B在多种任务上的性能超越了大多数开源模型,甚至媲美商业专有模型。
模型特点
InternVL2-40B模型由InternViT-6B-448px-V1-5和Nous-Hermes-2-Yi-34B组成,可处理包括长文本、多张图片以及视频内容。其训练使用了8k的上下文窗口,使它在处理复杂输入时表现卓越。
性能表现
图片基准测试
InternVL2-40B在多项评测中表现突出:
- 在DocVQA、ChartQA等任务中,具有较高的问答准确率。
- 在OCRBench测试中,相比其他模型表现更佳。
- MathVista中适合数学题解答,其得分为63.7。
详见评估指南。
视频基准测试
在视频处理方面,InternVL2-40B同样表现出色。该模型在MVBench和Video-MME任务中展现了优异的多帧分析能力。
定位基准测试
InternVL2-40B在RefCOCO、RefCOCO+等多种定位任务中,在命中精度上进行了较为出色的表现。
使用指南
模型加载
InternVL2-40B可以通过transformers
库方便地加载。以下是加载模型的基本示例代码:
import torch
from transformers import AutoTokenizer, AutoModel
path = "OpenGVLab/InternVL2-40B"
model = AutoModel.from_pretrained(
path,
torch_dtype=torch.bfloat16,
low_cpu_mem_usage=True,
use_flash_attn=True,
trust_remote_code=True).eval().cuda()
多GPU支持
InternVL2-40B支持多GPU操作,适用于大规模模型推理场景。这通过将模型的第一层和最后一层置于相同设备上来实现,从而防止跨设备的张量错误。
使用体验
用户可以通过在线演示直接体验InternVL2系列模型的强大功能。
免责声明
尽管我们在训练阶段努力确保模型的安全性,但InternVL2-40B由于其生成模式的概率性,可能会生成不符合预期的输出,例如偏见、歧视或其他有害内容。因此,我们不对传播不合适内容的后果负责。
评价邀请
我们欢迎MLLM基准开发者对InternVL1.5和InternVL2系列模型进行评估。如需添加评估结果,请联系我们:wztxy89@163.com。