#视频语言定位

MAD数据集：一个用于视频语言定位的大规模电影音频描述数据集

3 个月前

MAD数据集视频语言定位电影音频描述计算机视觉 CVPR Github 开源项目

3 个月前

相关项目

MAD

MAD是一个用于视频语言定位研究的大规模数据集，源自电影音频描述。它包含384K个句子，涵盖650部电影的1.2K小时视频内容。数据集横跨22个电影类型和90年电影史，提供多样化的动作、场景和语言素材。MAD的独特之处在于其长形式定位设置，具有庞大的语言词汇量，对准确性和效率提出了挑战。这一资源为研究人员开拓了视频语言理解的新领域。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com