项目介绍:ViP-LLaVA-7B
模型概述
ViP-LLaVA-7B 是一个开源的聊天机器人,由 LLaMA/Vicuna 进行微调训练,专注于图像层级和区域层级的指令数据,并配备视觉提示。这个模型基于自回归语言模型,采用了变换器架构设计。
模型信息
- 模型类型: ViP-LLaVA 是一种开放源码的聊天机器人,通过在图像层级指令数据和带有视觉提示的区域层级指令数据上进行微调训练,基于变换器架构。
- 模型时间: ViP-LLaVA-7B 于 2023 年 11 月训练完成。详细论文
- 更多信息的资源: ViP-LLaVA 官网
许可信息
Llama 2 在 LLAMA 2 社区许可下发布,版权所有 (c) Meta Platforms, Inc.,保留所有权利。
- 询问或反馈的联系方式: 如果有关于模型的疑问或建议,可以前往 GitHub 讨论区。
预期用途
- 主要用途: ViP-LLaVA 的首要用途是进行关于大规模多模态模型和聊天机器人的研究。
- 主要用户: 模型主要针对计算机视觉、自然语言处理、机器学习和人工智能领域的研究人员和爱好者。
训练数据集
ViP-LLaVA-7B 的训练数据集包括:
- 来自 LAION/CC/SBU 的 558,000 对经过筛选的图文配对数据,这些数据经过 BLIP 描述。
- 665,000 项来自 LLaVA-1.5 的图像层级指令数据。
- 520,000 对带有视觉提示的图文配对数据。
- 从 GPT-4V 生成的 13,000 项区域层级指令数据。
评估数据集
ViP-LLaVA 在四项学术区域层级基准测试以及我们新提出的 RegionBench 中取得了先进的性能。
通过对 ViP-LLaVA-7B 的详细介绍,希望能够帮助大家更好地理解这款模型的工作原理与用途。这个项目不仅在技术层面展示了多模态聊天机器人的可能性,同时也为相关领域的研究人员提供了一个探讨与研发的新平台。