VILA1.5-13b项目介绍
项目背景
VILA1.5-13b是基于视觉语言模型(Visual Language Model, VLM)的一个先进项目。它采用交错的图文数据进行大规模预训练,使得该模型可以处理多图像内容。目前,VILA模型能够在边缘设备上部署,比如Jetson Orin和笔记本电脑,并通过TinyChat框架实现AWQ 4bit量化。
核心技术
-
模型类型: VILA是一个视觉语言模型,通过交错的图文预训练,实现了多图像推理、上下文学习、视觉链式思维和更好的世界知识。
-
输入输出形式:
- 输入类型:图像、视频、文本
- 输入格式:RGB格式的图像、MP4格式的视频、字符串格式的文本
- 输出类型:文本
- 输出格式:字符串
-
架构:
- 类型:Transformer架构
- 网络架构:siglip和vicuna1.5
使用场景与用户
主要用途: VILA主要用于大规模多模态模型和聊天机器人的研究。
主要用户: 计算机视觉、自然语言处理、机器学习和人工智能领域的研究人员及爱好者是该模型的主要目标用户。
训练和评估
训练数据集: VILA使用约5300万个图-文对或交错的图文内容进行训练,细节可查看数据集准备说明。
评估数据集: 评估包括12个基准测试,其中5个是学术VQA基准,7个是专为指令跟随模式设计的新基准。
推理引擎与硬件支持
推理引擎:
- PyTorch
- TensorRT-LLM
- TinyChat
测试硬件:
- A100
- Jetson Orin
- RTX 4090
许可与使用
许可证:
- 代码使用Apache 2.0许可证
- 预训练权重使用CC-BY-NC-SA-4.0许可证
- 仅供非商业研究使用
反馈与支持: 用户可以通过GitHub讨论页面提交问题或评论。
道德考虑
NVIDIA强调可信赖AI是共同责任,并已建立相关政策和实践,以确保广泛AI应用的开发符合行业和使用案例需求,并防止潜在的产品滥用。开发者在使用VILA时,应与团队合作确保模型符合行业和使用需求。