热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#视频语言定位
MAD - 大规模电影音频数据集用于视频语言定位研究
MAD数据集
视频语言定位
电影音频描述
计算机视觉
CVPR
Github
开源项目
MAD是一个用于视频语言定位研究的大规模数据集,源自电影音频描述。它包含384K个句子,涵盖650部电影的1.2K小时视频内容。数据集横跨22个电影类型和90年电影史,提供多样化的动作、场景和语言素材。MAD的独特之处在于其长形式定位设置,具有庞大的语言词汇量,对准确性和效率提出了挑战。这一资源为研究人员开拓了视频语言理解的新领域。
1
1
相关文章
MAD数据集:一个用于视频语言定位的大规模电影音频描述数据集
3 个月前
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号