VTimeLLM [论文]
"VTimeLLM: 赋予LLM掌握视频时刻的能力"论文的官方PyTorch实现。
[多个"论文代码"徽章]
:loudspeaker: 最新更新
- 1月2日: 感谢Xiao Xia、Shengbo Tong和Beining Wang,我们重构了代码,现在同时支持LLAMA和ChatGLM3架构。我们将训练数据翻译成中文,并基于ChatGLM3-6b微调了中文版本。
- 12月14日: 发布了训练代码和数据。所有资源包括模型、数据集和提取的特征都可在这里获取。:fire::fire:
- 12月4日: VTimeLLM: 演示版本发布。
VTimeLLM概述 :bulb:
VTimeLLM是一种新型的视频LLM,专为细粒度视频时刻理解和时间边界推理而设计。
VTimeLLM采用边界感知的三阶段训练策略,分别利用图像-文本对进行特征对齐,多事件视频增强时间边界意识,以及高质量视频-指令微调进一步提升时间理解能力并与人类意图对齐。
[框架图]
贡献 :trophy:
- 据我们所知,我们提出了首个边界感知的视频LLM:VTimeLLM。
- 我们提出了边界感知的三阶段训练策略,该策略连续利用:i) 大规模图像-文本数据进行特征对齐,ii) 大规模多事件视频-文本数据以及时间相关的单轮和多轮问答来增强时间边界意识,iii) 在高质量对话数据集上进行指令微调以获得更好的时间推理能力。
- 我们进行了广泛的实验,证明所提出的VTimeLLM在各种细粒度时间相关视频任务中显著优于现有的视频LLM,展示了其卓越的视频理解和推理能力。
安装 :wrench:
[安装说明]
离线运行演示 :cd:
[离线演示说明]
训练 :train:
[训练说明]
定性分析 :mag:
VTimeLLM在多项任务中的综合性能评估。
[多个任务示例图片和说明]
致谢 :pray:
[致谢内容]
如果您在研究或应用中使用VTimeLLM,请使用以下BibTeX进行引用: [引用信息]
许可 :scroll:
[许可说明]
期待您的反馈、贡献和星标!:star2: