#视频语言

LanguageBind: 突破语言与多模态对齐的前沿技术

3 个月前

LanguageBind 多模态预训练视频语言零样本分类 Github 开源项目

3 个月前

相关项目

LanguageBind

LanguageBind是一种基于语言的多模态预训练方法,通过语言将不同模态进行语义关联。该方法引入了VIDAL-10M数据集,包含1000万条视频、红外、深度、音频及对应语言数据。通过多视角增强的语言描述训练,LanguageBind在多个跨模态任务上实现了先进性能,无需中间模态即可完成跨模态语义对齐。

LanguageBind_Audio_FT

LanguageBind_Audio_FT是一个基于语言中心方法的音频预训练模型，通过语义对齐实现音频与语言的跨模态理解。该模型在VIDAL-10M数据集上训练，采用多视角增强的语言描述，无需中间模态即可实现高性能。在5个音频-语言数据集上，LanguageBind_Audio_FT展现了优秀的跨模态理解能力，达到了领先水平。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com