Tarsier-7b 项目介绍
项目背景
Tarsier-7b 是 Tarsier 系列中的一员,是一个开源的大规模视频语言模型。这个模型专注于生成高质量的视频描述,并且在理解一般视频内容方面有出色的能力。Tarsier 系列的另一个成员 Tarsier-34b 在6个开放的基准测试上取得了最先进的成果。Tarsier-7b 的基础语言模型是 liuhaotian/llava-v1.6-vicuna-7b。
模型开发时间
Tarsier-7b 于2024年6月完成训练。
相关资料
有关Tarsier-7b的更多信息可以通过以下链接获取:
许可证
Tarsier-7b 使用了 lmsys/vicuna-7b-v1.5 的许可证。
问题或评论
如有任何关于模型的问题或评论,可以通过 GitHub 问题页面 联系项目团队。
预期用途
Tarsier-7b 的主要用途是研究大规模多模态模型,特别是在视频描述方面的应用。其目标用户主要是从事计算机视觉、自然语言处理、机器学习和人工智能的研究人员和业余爱好者。
训练数据集
Tarsier-7b 采用了两阶段的训练策略:
- 阶段一: 在1300万条数据上进行多任务预训练。
- 阶段二: 在50万条数据上进行多粒度的说明指导训练。
在两个阶段中,模型都冻结了ViT(视觉变换器)并训练了投影层和LLM(大语言模型)的所有参数。
评估数据集
Tarsier-7b 在多个数据集上进行了评估:
- 视频描述: DREAM-1K
- 多选 VQA(视觉问答): MVBench、NeXT-QA、Egoschema
- 开放式 VQA: MSVD-QA、MSR-VTT-QA、ActivityNet-QA、TGIF-QA
- 视频字幕: MSVD-Caption、MSRVTT-Caption、VATEX
如何使用
有关如何使用Tarsier-7b模型的具体说明,请参考 使用说明页面。