#VTimeLLM

VTimeLLM: 赋予大语言模型把握视频时刻的能力

2024年09月05日

2024年09月05日

相关项目

VTimeLLM

VTimeLLM是一种先进的视频大语言模型，专注于精细化视频时刻理解和推理。该模型采用边界感知三阶段训练策略，包括图像-文本特征对齐、多事件视频时间边界识别和高质量视频指令微调。这种方法显著提升了模型的时间理解能力，使其在多项视频理解任务中表现优异。

投诉举报邮箱: service@vectorlightyear.com