#音频分类
PaSST - Patchout技术优化音频变换器训练效率及性能
PaSST音频转换器Patchout预训练模型音频分类Github开源项目
PaSST项目开发的Patchout方法通过丢弃部分输入patch优化音频频谱图变换器模型训练。该技术显著降低训练时间和GPU内存消耗,同时提升模型性能。Patchout支持随机丢弃或丢弃整个时间帧、频率区间。项目提供预训练模型、推理和嵌入提取功能,以及下游任务微调框架,为音频AI研究和应用提供全面支持。
larger_clap_music_and_speech - 专为音乐和语音优化的CLAP音频-文本对比学习模型
CLAP机器学习Github开源项目语音处理神经网络音频分类Huggingface模型
larger_clap_music_and_speech是一个针对音乐和语音优化的CLAP模型。它结合SWINTransformer和RoBERTa处理音频和文本特征,实现潜在空间的特征映射。该模型支持零样本音频分类和特征提取,可在CPU和GPU上运行。作为音频理解和分析的有力工具,它在音乐识别和语音处理等领域具有广泛应用前景。
MERT-v1-95M - 新的音乐理解模型,适应多种任务需求
预训练模型Github模型开源项目音乐理解音频分类Transformer自监督学习Huggingface
MERT-v1-95M模型在音乐音频预训练中应用新的范式和数据集,实现出色的任务泛化能力。与MERT-v0相比,该版本采用更高质量的伪标签,在24K Hz频率下训练了20,000小时的音频数据,支持音乐生成。95M参数的模型适合不同的硬件需求,输出75 Hz的特征速率。通过整合MLM预测和批内噪声混合技术,MERT-v1-95M在多种下游任务中表现出色。
wavlm-base - 适用于多语音任务的自监督预训练模型
LibriSpeechWavLM音频分类自监督学习语音识别模型Github开源项目Huggingface
WavLM是基于自监督学习的语音预训练模型,旨在支持多种语音任务。模型在960小时Librispeech数据集上进行预训练,适用于语音识别和分类等任务,需在下游任务中微调。WavLM通过门控相对位置偏置和发音混合训练策略,强调说话者身份保留和内容建模,在SUPERB基准测试中表现优异。模型主要在英语环境中有良好表现,但目标是提供全语言栈的统一表示。
voice-safety-classifier - 语音聊天毒性检测的高精度分类工具
语音安全音频分类Huggingfacetoxicity detectionGithub开源项目模型多标签分类模型评估
该项目提供了一个新的语音聊天毒性检测基准模型,基于大规模数据集开发。模型使用WavLM base plus权重,经过2,374小时语音多标签微调,输出标签包括Profanity、DatingAndSexting、Racist、Bullying等。评估显示模型在二元分类任务中的精度达到94.48%。使用者可通过特定命令运行模型权重进行应用。
larger_clap_music - 大规模音乐音频分类及特征提取的模型解决方案
RoBERTaGithub神经网络模型开源项目CLAP音频分类TransformerHuggingface
通过对比语言音频预训练技术,CLAP模型实现高效的音频和文本特征提取和分类,适用于无监督学习环境。模型兼具SWINTransformer和RoBERTa的优点,可用来评估音频与文本间的相似性,且能满足多种音频分类和嵌入需求。
hubert-base-superb-ks - 基于HuBERT的语音命令词识别与关键词检测模型
语音识别音频分类HuggingfaceSUPERB关键词检测开源项目模型HuBERTGithub
该语音关键词检测系统基于HuBERT预训练模型开发,可识别Speech Commands数据集中的10类预设命令词、静音和未知类别。模型在测试集达到96.72%准确率,支持16kHz采样率音频输入,集成transformers pipeline接口,便于设备端快速部署和调用。
wav2vec2-large-nonverbalvocalization-classification - Nonverbal Vocalization分类的Wav2vec2模型扩展语音识别应用
音频分类wav2vec2声纹识别准确率Github模型开源项目非语言发声Huggingface
该模型利用Nonverbal Vocalization数据集,基于wav2vec2架构,进行非语言声带的分类。可识别诸如咬牙、咳嗽、打哈欠、哭泣等声音分类。Wav2vec2模型不仅提升了语音识别的准确性,还增强了在多语言及多声学场景中的应用。该模型支持简单的部署与系统集成,优化了语音交互的体验。
wav2vec2-base-superb-ks - 高效的关键词识别音频分类模型
关键词识别开源项目语音命令SUPERB模型音频分类HuggingfaceGithubWav2Vec2
Wav2Vec2-Base模型支持SUPERB关键字识别任务,具备高准确性和快速响应的特点。该模型预训练于16kHz语音音频,采用Speech Commands数据集,通过Hugging Face的管道实现关键词检测,适应实时设备应用。
wav2vec2-xlsr-53-russian-emotion-recognition - 俄语语音情感识别工具
XLS-R Wav2Vec2Github情感识别开源项目俄语情感识别Huggingface音频分类情感分类模型
本项目应用XLS-R Wav2Vec2模型进行俄语语音的情感识别,准确率为72%。通过多种情感分类标签,模型可识别愤怒、厌恶、兴奋、恐惧、快乐、中立及悲伤等情感。项目采用MIT许可证,使用Russian Emotional Speech Dialogs数据集,适合对情感识别技术有深入理解和应用需要的用户。
discogs-maest-30s-pw-129e - 基于Transformer架构的音乐音频分析模型
音乐分析Github开源项目MAESTPASST模型音频分类Huggingface音乐风格分类
本项目使用基于Transformer架构的MAEST模型进行音乐分析,利用来自Discogs的公开元数据进行多达400种音乐风格的分类。该模型在音频分类、情感识别等方面表现突出,尤其在中间层的特征提取中效果显著。适用于音频分类任务的用户,非一般音频分类使用。在Essentia和Transformers库的支持下,用户可以实现高效模型推断和下游任务性能提升。
hubert-base-ch-speech-emotion-recognition - 中文情感音频识别模型,使用CASIA数据集及HuBERT预训练
高准确率Github开源项目CASIA数据集模型音频分类Huggingfacehubert-base-ch-speech-emotion-recognition情感识别
项目采用TencentGameMate/chinese-hubert-base模型,在CASIA数据集上进行训练,实现情感识别。CASIA数据集包括6种情感的1200个样本,优化了训练参数,如AdamW优化器和Step_LR学习率调度。模型在测试集上的准确率为97.2%,适用于多种情感分析应用场景。