#VIDAL-10M

LanguageBind_Video_merge - 实现多模态与语言的语义对齐

模型多模态预训练LanguageBind开源项目Huggingface应急零样本GithubVIDAL-10M视频语言

LanguageBind项目提出一种基于语言的多模态预训练方法,通过语言对齐视频、红外、深度、音频等多种模态。该方法无需中间模态,性能优异。项目构建了VIDAL-10M数据集,包含1000万条多模态数据及对应语言描述。通过多视角增强和ChatGPT优化的语言描述,为各模态创建了语义空间。该方法在多个数据集上达到了最先进水平。

LanguageBind_Audio_FT - LanguageBind：跨模态语义对齐的音频预训练模型

Huggingface模型视频语言Github开源项目多模态预训练LanguageBindVIDAL-10MICLR 2024

LanguageBind_Audio_FT是一个基于语言中心方法的音频预训练模型，通过语义对齐实现音频与语言的跨模态理解。该模型在VIDAL-10M数据集上训练，采用多视角增强的语言描述，无需中间模态即可实现高性能。在5个音频-语言数据集上，LanguageBind_Audio_FT展现了优秀的跨模态理解能力，达到了领先水平。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号