热门
导航
快讯
推荐文章
热门
导航
快讯
推荐文章
#应急零样本
LanguageBind_Video_merge - 实现多模态与语言的语义对齐
模型
多模态预训练
LanguageBind
开源项目
Huggingface
应急零样本
Github
VIDAL-10M
视频语言
LanguageBind项目提出一种基于语言的多模态预训练方法,通过语言对齐视频、红外、深度、音频等多种模态。该方法无需中间模态,性能优异。项目构建了VIDAL-10M数据集,包含1000万条多模态数据及对应语言描述。通过多视角增强和ChatGPT优化的语言描述,为各模态创建了语义空间。该方法在多个数据集上达到了最先进水平。
1
1
使用协议
隐私政策
广告服务
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI
·
鲁ICP备2024100362号-6
·
鲁公网安备37021002001498号