项目概述
Llama-3.2-90B-Vision是Meta公司开发的一款多模态大语言模型,它能够同时处理图像和文本输入并生成文本输出。这款模型是基于Llama 3.1文本模型构建的,通过添加视觉适配器来实现图像识别和理解的功能。
模型特点
该模型具有以下主要特点:
- 支持90B(约888亿)参数规模
- 采用transformer架构与GQA(分组查询注意力)机制
- 训练数据包含60亿个图文对
- 具有128k的上下文长度
- 知识截止日期为2023年12月
语言支持
在纯文本任务中,该模型支持8种语言:
- 英语
- 德语
- 法语
- 意大利语
- 葡萄牙语
- 印地语
- 西班牙语
- 泰语
但对于图像+文本的应用场景,目前仅支持英语。
主要用途
该模型可以应用于多个领域:
- 视觉问答(VQA):能够理解图片并回答相关问题
- 文档视觉问答(DocVQA):理解文档图片的文本和布局并回答问题
- 图像描述:自动生成图片的详细描述
- 图文检索:实现图像和文本之间的匹配
- 视觉定位:将自然语言描述与图像中的具体区域对应
使用限制
该模型的使用需要遵循以下规范:
- 必须遵守Llama 3.2社区许可协议
- 禁止违反任何适用的法律法规
- 需遵守可接受使用政策的规定
- 在支持语言范围之外的应用需要额外的安全评估
技术支持
Meta为该模型提供了完整的技术支持:
- 提供了详细的技术文档和使用指南
- 可通过GitHub提交问题反馈
- 设有专门的反馈渠道用于报告风险内容
- 提供安全问题报告机制
发展前景
作为一个静态训练模型,未来版本将在以下方面持续改进:
- 模型能力的提升
- 安全性的增强
- 多语言支持的扩展
- 应用场景的拓展