项目概述
nanoLLaVA是一个小巧但强大的视觉语言模型,总参数量仅为1B,专门为边缘设备设计开发。它通过结合Quyen-SE-v0.1语言模型和google/siglip视觉编码器,实现了高效的多模态理解能力。
核心特点
- 模型规模小:仅1B参数量,适合在边缘设备上运行
- 性能出色:在多个视觉语言任务上表现优异
- 基础架构:
- 基础语言模型:采用Quyen-SE-v0.1(基于Qwen1.5-0.5B)
- 视觉编码器:使用google/siglip-so400m-patch14-384
模型评测
nanoLLaVA在多个视觉语言基准测试中展现了优秀的性能:
- VQA v2测试得分:70.84
- TextVQA测试得分:46.71
- ScienceQA测试得分:58.97
- POPE测试得分:84.1
- MMMU测试得分:28.6
- GQA测试得分:54.79
- MM-VET测试得分:23.9
使用方法
使用nanoLLaVA非常简单,只需通过transformers库即可实现:
- 首先安装必要的依赖包
- 加载预训练模型和分词器
- 准备输入图像和文本提示
- 使用模型生成回答
提示词格式
模型遵循ChatML标准格式,具体结构为:
- 系统提示
- 用户输入(包含图像和问题)
- 助手回答
应用场景
该模型适用于多种实际应用场景:
- 图像描述生成
- 视觉问答系统
- 图文理解任务
- 边缘设备的视觉AI应用
未来展望
项目团队表示:
- 训练数据将在后续发布
- 微调代码即将推出
- 未来版本将进一步提升模型性能
技术亮点
- 轻量级架构设计
- 优秀的性能表现
- 易于部署和使用
- 支持多种视觉语言任务