#音频分类

PaSST - Patchout技术优化音频变换器训练效率及性能

PaSST音频转换器Patchout预训练模型音频分类Github开源项目

PaSST项目开发的Patchout方法通过丢弃部分输入patch优化音频频谱图变换器模型训练。该技术显著降低训练时间和GPU内存消耗，同时提升模型性能。Patchout支持随机丢弃或丢弃整个时间帧、频率区间。项目提供预训练模型、推理和嵌入提取功能，以及下游任务微调框架，为音频AI研究和应用提供全面支持。

larger_clap_music_and_speech - 专为音乐和语音优化的CLAP音频-文本对比学习模型

CLAP机器学习Github开源项目语音处理神经网络音频分类Huggingface模型

larger_clap_music_and_speech是一个针对音乐和语音优化的CLAP模型。它结合SWINTransformer和RoBERTa处理音频和文本特征，实现潜在空间的特征映射。该模型支持零样本音频分类和特征提取，可在CPU和GPU上运行。作为音频理解和分析的有力工具，它在音乐识别和语音处理等领域具有广泛应用前景。

MERT-v1-95M - 新的音乐理解模型，适应多种任务需求

预训练模型Github模型开源项目音乐理解音频分类Transformer自监督学习Huggingface

MERT-v1-95M模型在音乐音频预训练中应用新的范式和数据集，实现出色的任务泛化能力。与MERT-v0相比，该版本采用更高质量的伪标签，在24K Hz频率下训练了20,000小时的音频数据，支持音乐生成。95M参数的模型适合不同的硬件需求，输出75 Hz的特征速率。通过整合MLM预测和批内噪声混合技术，MERT-v1-95M在多种下游任务中表现出色。

wavlm-base - 适用于多语音任务的自监督预训练模型

LibriSpeechWavLM音频分类自监督学习语音识别模型Github开源项目Huggingface

WavLM是基于自监督学习的语音预训练模型，旨在支持多种语音任务。模型在960小时Librispeech数据集上进行预训练，适用于语音识别和分类等任务，需在下游任务中微调。WavLM通过门控相对位置偏置和发音混合训练策略，强调说话者身份保留和内容建模，在SUPERB基准测试中表现优异。模型主要在英语环境中有良好表现，但目标是提供全语言栈的统一表示。

voice-safety-classifier - 语音聊天毒性检测的高精度分类工具

语音安全音频分类Huggingfacetoxicity detectionGithub开源项目模型多标签分类模型评估

该项目提供了一个新的语音聊天毒性检测基准模型，基于大规模数据集开发。模型使用WavLM base plus权重，经过2,374小时语音多标签微调，输出标签包括Profanity、DatingAndSexting、Racist、Bullying等。评估显示模型在二元分类任务中的精度达到94.48%。使用者可通过特定命令运行模型权重进行应用。

larger_clap_music - 大规模音乐音频分类及特征提取的模型解决方案

RoBERTaGithub神经网络模型开源项目CLAP音频分类TransformerHuggingface

通过对比语言音频预训练技术，CLAP模型实现高效的音频和文本特征提取和分类，适用于无监督学习环境。模型兼具SWINTransformer和RoBERTa的优点，可用来评估音频与文本间的相似性，且能满足多种音频分类和嵌入需求。

hubert-base-superb-ks - 基于HuBERT的语音命令词识别与关键词检测模型

语音识别音频分类HuggingfaceSUPERB关键词检测开源项目模型HuBERTGithub

该语音关键词检测系统基于HuBERT预训练模型开发，可识别Speech Commands数据集中的10类预设命令词、静音和未知类别。模型在测试集达到96.72%准确率，支持16kHz采样率音频输入，集成transformers pipeline接口，便于设备端快速部署和调用。

wav2vec2-large-nonverbalvocalization-classification - Nonverbal Vocalization分类的Wav2vec2模型扩展语音识别应用

音频分类wav2vec2声纹识别准确率Github模型开源项目非语言发声Huggingface

该模型利用Nonverbal Vocalization数据集，基于wav2vec2架构，进行非语言声带的分类。可识别诸如咬牙、咳嗽、打哈欠、哭泣等声音分类。Wav2vec2模型不仅提升了语音识别的准确性，还增强了在多语言及多声学场景中的应用。该模型支持简单的部署与系统集成，优化了语音交互的体验。

wav2vec2-base-superb-ks - 高效的关键词识别音频分类模型

关键词识别开源项目语音命令SUPERB模型音频分类HuggingfaceGithubWav2Vec2

Wav2Vec2-Base模型支持SUPERB关键字识别任务，具备高准确性和快速响应的特点。该模型预训练于16kHz语音音频，采用Speech Commands数据集，通过Hugging Face的管道实现关键词检测，适应实时设备应用。

wav2vec2-xlsr-53-russian-emotion-recognition - 俄语语音情感识别工具

XLS-R Wav2Vec2Github情感识别开源项目俄语情感识别Huggingface音频分类情感分类模型

本项目应用XLS-R Wav2Vec2模型进行俄语语音的情感识别，准确率为72%。通过多种情感分类标签，模型可识别愤怒、厌恶、兴奋、恐惧、快乐、中立及悲伤等情感。项目采用MIT许可证，使用Russian Emotional Speech Dialogs数据集，适合对情感识别技术有深入理解和应用需要的用户。

discogs-maest-30s-pw-129e - 基于Transformer架构的音乐音频分析模型

音乐分析Github开源项目MAESTPASST模型音频分类Huggingface音乐风格分类

本项目使用基于Transformer架构的MAEST模型进行音乐分析，利用来自Discogs的公开元数据进行多达400种音乐风格的分类。该模型在音频分类、情感识别等方面表现突出，尤其在中间层的特征提取中效果显著。适用于音频分类任务的用户，非一般音频分类使用。在Essentia和Transformers库的支持下，用户可以实现高效模型推断和下游任务性能提升。

hubert-base-ch-speech-emotion-recognition - 中文情感音频识别模型，使用CASIA数据集及HuBERT预训练

高准确率Github开源项目CASIA数据集模型音频分类Huggingfacehubert-base-ch-speech-emotion-recognition情感识别

项目采用TencentGameMate/chinese-hubert-base模型，在CASIA数据集上进行训练，实现情感识别。CASIA数据集包括6种情感的1200个样本，优化了训练参数，如AdamW优化器和Step_LR学习率调度。模型在测试集上的准确率为97.2%，适用于多种情感分析应用场景。

相关文章

Article Cover

PaSST: 高效训练音频Transformer模型的新方法

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号