NVLM-D-72B项目介绍
项目概述
NVLM-D-72B是英伟达公司开发的一款前沿级多模态大语言模型(LLM)。它是NVLM 1.0模型家族中的一员,采用仅解码器架构,具有720亿参数规模。该模型在视觉-语言任务上达到了最先进的性能,能够与领先的专有模型(如GPT-4)和开源模型(如Llama 3-V 405B和InternVL 2)相媲美。
模型特点
-
多模态能力:可以同时处理文本和图像输入,执行包括光学字符识别、多模态推理、定位、常识推理、世界知识利用和编码在内的各种任务。
-
大规模参数:拥有720亿参数,属于超大规模语言模型。
-
开源可用:模型权重和代码已在Hugging Face上开源,供社区使用。
-
性能卓越:在多项视觉-语言基准测试中表现出色,如MMMU、MathVista、OCRBench等。
-
文本能力增强:经过多模态训练后,模型在纯文本任务上的表现反而有所提升。
技术细节
-
网络架构:仅解码器的Transformer架构
-
输入:支持文本和图像输入,最大token长度为128K
-
输出:生成文本输出
-
运行环境:支持PyTorch,推荐在NVIDIA Hopper架构GPU上运行
-
开源许可:采用CC-BY-NC-4.0许可
使用方法
-
准备环境:可使用提供的Dockerfile构建运行环境
-
加载模型:
model = AutoModel.from_pretrained("nvidia/NVLM-D-72B")
-
多GPU加载:提供了将模型分布在多个GPU上的示例代码
-
推理:
- 支持纯文本对话
- 支持单图像单轮对话
- 提供了图像预处理和模型输入的详细示例代码
性能评测
-
在多项视觉-语言基准测试中表现优异,如MMMU、MathVista、OCRBench等
-
在纯文本任务上也有出色表现,如MMLU、GSM8K、MATH、HumanEval等
总结
NVLM-D-72B是一个强大的开源多模态大语言模型,在视觉-语言和纯文本任务上都展现出卓越性能。它的开源为学术研究和应用开发提供了宝贵的资源,有望推动多模态AI技术的进一步发展。