#CLAP

CLAP: 开启音频理解新篇章的对比语言-音频预训练模型

3 个月前

CLAP 音频处理机器学习预训练模型多模态学习 Github 开源项目

3 个月前

音频数据集:人工智能音频处理的基石

3 个月前

音频数据集 LAION CLAP webdataset 开源项目 Github

3 个月前

相关项目

audio-dataset

LAION发起的Audio Dataset Project致力于收集和处理大规模音频-文本对数据集。项目团队由Mila和UCSD的研究人员及全球贡献者组成，专注于数据收集、标准化处理和webdataset格式存储。该项目为CLAP等模型训练提供数据支持，并设有完善的贡献指南和进度跟踪系统，欢迎更多贡献者参与。

CLAP

CLAP是一个音频-文本对比学习预训练模型，可提取音频和文本的潜在表示。它基于CLIP架构设计，通过大规模预训练学习音频与文本的对应关系。该模型适用于音频分类、检索等多种下游任务。项目提供开源预训练模型、代码和PyPI库，支持从音频文件或数据中直接提取特征。

clap-htsat-unfused

CLAP是一个基于对比学习的音频-文本预训练模型,利用LAION-Audio-630K数据集进行训练。该模型通过特征融合和关键词增强技术,能够处理不同长度的音频输入,在文本到音频检索、零样本音频分类等任务中表现优异。CLAP在零样本设置下达到了领先水平,可用于零样本音频分类或音频和文本特征提取。

larger_clap_general

larger_clap_general是一个优化的CLAP（对比语言-音频预训练）模型，针对通用音频、音乐和语音进行训练。该模型结合SWINTransformer和RoBERTa分别处理音频和文本信息，适用于零样本音频分类和音频/文本特征提取。它能够在不针对特定任务优化的情况下，预测与给定音频最相关的文本描述，广泛应用于音频分类等多个领域。

clap-htsat-fused

CLAP项目使用对比语言-音频预训练模型结合音频编码器与文本编码器，提升多模态学习表现。该模型支持文本到音频检索、零样本音频分类及监督音频分类等多项任务。通过特征融合机制和关键词到字幕增强，CLAP能高效处理不同长度的音频输入。所发布的LAION-Audio-630K数据集及模型在文本到音频检索和零样本音频分类中表现优异，适用于零样本音频分类及音频、文本特征提取。

larger_clap_music_and_speech

larger_clap_music_and_speech是一个针对音乐和语音优化的CLAP模型。它结合SWINTransformer和RoBERTa处理音频和文本特征，实现潜在空间的特征映射。该模型支持零样本音频分类和特征提取，可在CPU和GPU上运行。作为音频理解和分析的有力工具，它在音乐识别和语音处理等领域具有广泛应用前景。

larger_clap_music

通过对比语言音频预训练技术，CLAP模型实现高效的音频和文本特征提取和分类，适用于无监督学习环境。模型兼具SWINTransformer和RoBERTa的优点，可用来评估音频与文本间的相似性，且能满足多种音频分类和嵌入需求。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com