#LanguageBind
LanguageBind - 通过语言绑定实现跨模态语义对齐
LanguageBind多模态预训练视频语言零样本分类Github开源项目
LanguageBind是一种基于语言的多模态预训练方法,通过语言将不同模态进行语义关联。该方法引入了VIDAL-10M数据集,包含1000万条视频、红外、深度、音频及对应语言数据。通过多视角增强的语言描述训练,LanguageBind在多个跨模态任务上实现了先进性能,无需中间模态即可完成跨模态语义对齐。
LanguageBind_Audio - 语言驱动的多模态预训练解决方案
语义对齐公开源码开源项目模型多模态HuggingfaceLanguageBind数据集Github
LanguageBind是一个语言驱动的多模态预训练工具,在五个数据集上表现出色。该项目采用VIDAL-10M数据集,将视频、红外、深度、音频和语言模态结合,实现了跨越视觉模态的扩展。通过多视图增强和ChatGPT的结合,它提高了语言的语义表达,并支持在线和本地运行,包括音频与语言、视频与语言的相似性计算。