#CLAP

audio-dataset - LAION音频数据集收集与处理开源计划

音频数据集LAIONCLAPwebdataset开源项目Github

LAION发起的Audio Dataset Project致力于收集和处理大规模音频-文本对数据集。项目团队由Mila和UCSD的研究人员及全球贡献者组成，专注于数据收集、标准化处理和webdataset格式存储。该项目为CLAP等模型训练提供数据支持，并设有完善的贡献指南和进度跟踪系统，欢迎更多贡献者参与。

CLAP - 音频与文本的对比学习预训练模型

CLAP音频处理机器学习预训练模型多模态学习Github开源项目

CLAP是一个音频-文本对比学习预训练模型，可提取音频和文本的潜在表示。它基于CLIP架构设计，通过大规模预训练学习音频与文本的对应关系。该模型适用于音频分类、检索等多种下游任务。项目提供开源预训练模型、代码和PyPI库，支持从音频文件或数据中直接提取特征。

larger_clap_general - CLAP音频-文本预训练模型实现零样本音频分类和特征提取

模型CLAP零样本分类开源项目Huggingface音频处理机器学习语音识别Github

larger_clap_general是一个优化的CLAP（对比语言-音频预训练）模型，针对通用音频、音乐和语音进行训练。该模型结合SWINTransformer和RoBERTa分别处理音频和文本信息，适用于零样本音频分类和音频/文本特征提取。它能够在不针对特定任务优化的情况下，预测与给定音频最相关的文本描述，广泛应用于音频分类等多个领域。

clap-htsat-fused - 对比语言与音频学习中的多任务性能提升

对比学习开源项目模型多模态表示学习GithubHuggingface零样本音频分类音频表示CLAP

CLAP项目使用对比语言-音频预训练模型结合音频编码器与文本编码器，提升多模态学习表现。该模型支持文本到音频检索、零样本音频分类及监督音频分类等多项任务。通过特征融合机制和关键词到字幕增强，CLAP能高效处理不同长度的音频输入。所发布的LAION-Audio-630K数据集及模型在文本到音频检索和零样本音频分类中表现优异，适用于零样本音频分类及音频、文本特征提取。

larger_clap_music_and_speech - 专为音乐和语音优化的CLAP音频-文本对比学习模型

CLAP机器学习Github开源项目语音处理神经网络音频分类Huggingface模型

larger_clap_music_and_speech是一个针对音乐和语音优化的CLAP模型。它结合SWINTransformer和RoBERTa处理音频和文本特征，实现潜在空间的特征映射。该模型支持零样本音频分类和特征提取，可在CPU和GPU上运行。作为音频理解和分析的有力工具，它在音乐识别和语音处理等领域具有广泛应用前景。

larger_clap_music - 大规模音乐音频分类及特征提取的模型解决方案

RoBERTaGithub神经网络模型开源项目CLAP音频分类TransformerHuggingface

通过对比语言音频预训练技术，CLAP模型实现高效的音频和文本特征提取和分类，适用于无监督学习环境。模型兼具SWINTransformer和RoBERTa的优点，可用来评估音频与文本间的相似性，且能满足多种音频分类和嵌入需求。

相关文章

Article Cover

音频数据集:人工智能音频处理的基石

Article Cover

CLAP: 开启音频理解新篇章的对比语言-音频预训练模型

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号