#CLAP

audio-dataset - LAION音频数据集收集与处理开源计划
音频数据集LAIONCLAPwebdataset开源项目Github
LAION发起的Audio Dataset Project致力于收集和处理大规模音频-文本对数据集。项目团队由Mila和UCSD的研究人员及全球贡献者组成,专注于数据收集、标准化处理和webdataset格式存储。该项目为CLAP等模型训练提供数据支持,并设有完善的贡献指南和进度跟踪系统,欢迎更多贡献者参与。
CLAP - 音频与文本的对比学习预训练模型
CLAP音频处理机器学习预训练模型多模态学习Github开源项目
CLAP是一个音频-文本对比学习预训练模型,可提取音频和文本的潜在表示。它基于CLIP架构设计,通过大规模预训练学习音频与文本的对应关系。该模型适用于音频分类、检索等多种下游任务。项目提供开源预训练模型、代码和PyPI库,支持从音频文件或数据中直接提取特征。
larger_clap_general - CLAP音频-文本预训练模型 实现零样本音频分类和特征提取
模型CLAP零样本分类开源项目Huggingface音频处理机器学习语音识别Github
larger_clap_general是一个优化的CLAP(对比语言-音频预训练)模型,针对通用音频、音乐和语音进行训练。该模型结合SWINTransformer和RoBERTa分别处理音频和文本信息,适用于零样本音频分类和音频/文本特征提取。它能够在不针对特定任务优化的情况下,预测与给定音频最相关的文本描述,广泛应用于音频分类等多个领域。
clap-htsat-fused - 对比语言与音频学习中的多任务性能提升
对比学习开源项目模型多模态表示学习GithubHuggingface零样本音频分类音频表示CLAP
CLAP项目使用对比语言-音频预训练模型结合音频编码器与文本编码器,提升多模态学习表现。该模型支持文本到音频检索、零样本音频分类及监督音频分类等多项任务。通过特征融合机制和关键词到字幕增强,CLAP能高效处理不同长度的音频输入。所发布的LAION-Audio-630K数据集及模型在文本到音频检索和零样本音频分类中表现优异,适用于零样本音频分类及音频、文本特征提取。
larger_clap_music_and_speech - 专为音乐和语音优化的CLAP音频-文本对比学习模型
CLAP机器学习Github开源项目语音处理神经网络音频分类Huggingface模型
larger_clap_music_and_speech是一个针对音乐和语音优化的CLAP模型。它结合SWINTransformer和RoBERTa处理音频和文本特征,实现潜在空间的特征映射。该模型支持零样本音频分类和特征提取,可在CPU和GPU上运行。作为音频理解和分析的有力工具,它在音乐识别和语音处理等领域具有广泛应用前景。
larger_clap_music - 大规模音乐音频分类及特征提取的模型解决方案
RoBERTaGithub神经网络模型开源项目CLAP音频分类TransformerHuggingface
通过对比语言音频预训练技术,CLAP模型实现高效的音频和文本特征提取和分类,适用于无监督学习环境。模型兼具SWINTransformer和RoBERTa的优点,可用来评估音频与文本间的相似性,且能满足多种音频分类和嵌入需求。