热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#电影音频描述
MAD数据集:一个用于视频语言定位的大规模电影音频描述数据集
2 个月前
MAD是一个从电影音频描述中收集的大规模数据集,用于视频语言定位任务。它包含384K个句子,定位在1.2K小时来自650部不同电影的连续视频中,涵盖22个类型和90年的电影史,为视频语言定位研究提供了丰富多样的数据资源。
MAD数据集
视频语言定位
电影音频描述
计算机视觉
CVPR
Github
开源项目
2 个月前
相关项目
MAD
MAD是一个用于视频语言定位研究的大规模数据集,源自电影音频描述。它包含384K个句子,涵盖650部电影的1.2K小时视频内容。数据集横跨22个电影类型和90年电影史,提供多样化的动作、场景和语言素材。MAD的独特之处在于其长形式定位设置,具有庞大的语言词汇量,对准确性和效率提出了挑战。这一资源为研究人员开拓了视频语言理解的新领域。
查看
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号