项目概述
Llama-3.2-Vision-Instruct是Meta发布的一个多模态大语言模型系列,这是一个能同时处理图像和文本的人工智能系统。该系列包含11B和90B两种参数规模的模型,主要用于视觉识别、图像理解、图像描述和回答与图像相关的问题。
模型特点
- 该模型基于Llama 3.1文本模型开发,采用优化后的Transformer架构
- 通过监督微调(SFT)和人类反馈强化学习(RLHF)来提升模型的实用性和安全性
- 配备专门训练的视觉适配器,可以将图像信息整合到语言模型中
- 支持128k的上下文长度,具备GQA(分组查询注意力)机制
- 训练数据量达60亿(图像,文本)对
语言支持
- 纯文本任务支持8种语言:英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语
- 图像+文本的任务目前仅支持英语
- 开发者可以在遵守许可协议的前提下,对模型进行其他语言的微调
应用场景
- 视觉问答(VQA)和视觉推理
- 文档视觉问答(DocVQA)
- 图像描述生成
- 图像-文本检索
- 视觉定位任务
使用限制
- 仅允许用于商业和研究用途
- 必须遵守相关法律法规
- 需要遵守可接受使用政策和Llama 3.2社区许可协议
- 对于非官方支持的语言使用需要额外开发
技术细节
- 11B版本实际参数量为10.6B
- 90B版本实际参数量为88.8B
- 知识截止日期:2023年12月
- 发布日期:2024年9月25日
- 采用静态模型训练方式
- 未来可能发布新版本以提升性能和安全性
许可与反馈
- 使用需遵守Llama 3.2社区许可协议
- 提供多个反馈渠道,包括GitHub issues、内容反馈表单和安全问题报告
- 欢迎开发者通过官方文档了解更多技术细节和使用方法