#多阶段训练

VTimeLLM: 赋予大语言模型把握视频时刻的能力

2 个月前

Cover of VTimeLLM: 赋予大语言模型把握视频时刻的能力

VTimeLLM是一个创新的视频大语言模型,专为细粒度视频时刻理解和推理而设计。它采用了边界感知的三阶段训练策略,显著提升了视频理解和推理能力,在多项视频相关任务中大幅超越现有模型。

VTimeLLM 视频理解大语言模型时间边界感知多阶段训练 Github 开源项目

2 个月前

Cover of VTimeLLM: 赋予大语言模型把握视频时刻的能力

相关项目

Project Cover

VTimeLLM是一种先进的视频大语言模型，专注于精细化视频时刻理解和推理。该模型采用边界感知三阶段训练策略，包括图像-文本特征对齐、多事件视频时间边界识别和高质量视频指令微调。这种方法显著提升了模型的时间理解能力，使其在多项视频理解任务中表现优异。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号