热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#多阶段训练
VTimeLLM: 赋予大语言模型把握视频时刻的能力
2 个月前
VTimeLLM是一个创新的视频大语言模型,专为细粒度视频时刻理解和推理而设计。它采用了边界感知的三阶段训练策略,显著提升了视频理解和推理能力,在多项视频相关任务中大幅超越现有模型。
VTimeLLM
视频理解
大语言模型
时间边界感知
多阶段训练
Github
开源项目
2 个月前
相关项目
VTimeLLM
VTimeLLM是一种先进的视频大语言模型,专注于精细化视频时刻理解和推理。该模型采用边界感知三阶段训练策略,包括图像-文本特征对齐、多事件视频时间边界识别和高质量视频指令微调。这种方法显著提升了模型的时间理解能力,使其在多项视频理解任务中表现优异。
查看
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号