#音频分类

PaSST - Patchout技术优化音频变换器训练效率及性能
PaSST音频转换器Patchout预训练模型音频分类Github开源项目
PaSST项目开发的Patchout方法通过丢弃部分输入patch优化音频频谱图变换器模型训练。该技术显著降低训练时间和GPU内存消耗,同时提升模型性能。Patchout支持随机丢弃或丢弃整个时间帧、频率区间。项目提供预训练模型、推理和嵌入提取功能,以及下游任务微调框架,为音频AI研究和应用提供全面支持。
ast-finetuned-audioset-10-10-0.4593 - 音频光谱变换器在AudioSet上的精调应用
AudioSetHuggingface模型音频分类Github声谱图开源项目Audio Spectrogram Transformer视觉转换器
音频光谱变换器是一种在AudioSet上精调的模型,通过将音频转化为光谱图后应用视觉变换器,达成了高效的音频分类效果,在多项音频分类基准测试中表现卓越。
wav2vec2-large-robust-24-ft-age-gender - Wav2vec 2.0驱动的24层神经网络实现音频年龄性别识别
模型音频分类开源项目Huggingface年龄识别性别识别Wav2vec 2.0语音识别Github
项目采用Wav2vec 2.0架构,构建了24层深度神经网络用于音频年龄和性别识别。通过多数据集微调,模型能准确预测0-100岁年龄段,并区分说话者为儿童、女性或男性。额外功能包括输出最终transformer层的池化状态。支持ONNX格式导出,并提供全面使用指南,为音频分析和语音处理研究提供了有力支持。
SER-Odyssey-Baseline-WavLM-Multi-Attributes - WavLM基线模型实现多维度语音情感分析
模型MSP-Podcast音频分类开源项目Huggingface语音情感识别多任务模型GithubWavLM
此模型是Odyssey 2024语音情感识别竞赛的基线系统,基于WavLM架构开发。它能够同时预测语音的唤醒度、支配度和效价三个维度,输出值范围在0到1之间。模型使用MSP-Podcast数据集训练,并在竞赛的Test3和Development数据集上完成了基准测试。该模型提供了简洁的使用接口,便于集成到各类语音情感分析应用中。
wav2vec2-large-robust-12-ft-emotion-msp-dim - 基于Wav2vec 2.0的多维语音情感识别模型
Wav2vec 2.0Huggingface模型语音情感识别音频分类Github开源项目神经网络模型MSP-Podcast
该模型基于Wav2vec 2.0技术,通过在MSP-Podcast数据集上微调Wav2Vec2-Large-Robust模型实现。它能够处理原始音频信号,识别语音中的唤醒度、支配度和效价三个维度,输出0-1范围内的情感预测结果。此外,模型还提供最后一个transformer层的池化状态,为语音情感分析研究提供了有力支持。
ast-finetuned-audioset-10-10-0.4593-finetuned-gtzan - 基于AST的GTZAN数据集音频分类模型
ASTHuggingface模型准确率音频分类模型微调Github开源项目GTZAN数据集
该模型是在GTZAN数据集上微调的AST(Audio Spectrogram Transformer)模型,针对音频分类任务进行了优化。经过10轮训练,模型在评估集上达到92%的准确率,展现出优秀的音频分类能力。虽然缺少具体应用说明,但其高准确率表明该模型在音乐流派分类等领域可能具有良好表现。模型采用Adam优化器和线性学习率调度策略,通过精心调整的超参数实现了性能的显著提升。
larger_clap_music_and_speech - 专为音乐和语音优化的CLAP音频-文本对比学习模型
CLAP机器学习Github开源项目语音处理神经网络音频分类Huggingface模型
larger_clap_music_and_speech是一个针对音乐和语音优化的CLAP模型。它结合SWINTransformer和RoBERTa处理音频和文本特征,实现潜在空间的特征映射。该模型支持零样本音频分类和特征提取,可在CPU和GPU上运行。作为音频理解和分析的有力工具,它在音乐识别和语音处理等领域具有广泛应用前景。
MERT-v1-95M - 新的音乐理解模型,适应多种任务需求
预训练模型Github模型开源项目音乐理解音频分类Transformer自监督学习Huggingface
MERT-v1-95M模型在音乐音频预训练中应用新的范式和数据集,实现出色的任务泛化能力。与MERT-v0相比,该版本采用更高质量的伪标签,在24K Hz频率下训练了20,000小时的音频数据,支持音乐生成。95M参数的模型适合不同的硬件需求,输出75 Hz的特征速率。通过整合MLM预测和批内噪声混合技术,MERT-v1-95M在多种下游任务中表现出色。
wavlm-base - 适用于多语音任务的自监督预训练模型
LibriSpeechWavLM音频分类自监督学习语音识别模型Github开源项目Huggingface
WavLM是基于自监督学习的语音预训练模型,旨在支持多种语音任务。模型在960小时Librispeech数据集上进行预训练,适用于语音识别和分类等任务,需在下游任务中微调。WavLM通过门控相对位置偏置和发音混合训练策略,强调说话者身份保留和内容建模,在SUPERB基准测试中表现优异。模型主要在英语环境中有良好表现,但目标是提供全语言栈的统一表示。
voice-safety-classifier - 语音聊天毒性检测的高精度分类工具
语音安全音频分类Huggingfacetoxicity detectionGithub开源项目模型多标签分类模型评估
该项目提供了一个新的语音聊天毒性检测基准模型,基于大规模数据集开发。模型使用WavLM base plus权重,经过2,374小时语音多标签微调,输出标签包括Profanity、DatingAndSexting、Racist、Bullying等。评估显示模型在二元分类任务中的精度达到94.48%。使用者可通过特定命令运行模型权重进行应用。
larger_clap_music - 大规模音乐音频分类及特征提取的模型解决方案
RoBERTaGithub神经网络模型开源项目CLAP音频分类TransformerHuggingface
通过对比语言音频预训练技术,CLAP模型实现高效的音频和文本特征提取和分类,适用于无监督学习环境。模型兼具SWINTransformer和RoBERTa的优点,可用来评估音频与文本间的相似性,且能满足多种音频分类和嵌入需求。
hubert-base-superb-ks - 基于HuBERT的语音命令词识别与关键词检测模型
语音识别音频分类HuggingfaceSUPERB关键词检测开源项目模型HuBERTGithub
该语音关键词检测系统基于HuBERT预训练模型开发,可识别Speech Commands数据集中的10类预设命令词、静音和未知类别。模型在测试集达到96.72%准确率,支持16kHz采样率音频输入,集成transformers pipeline接口,便于设备端快速部署和调用。
wav2vec2-large-nonverbalvocalization-classification - Nonverbal Vocalization分类的Wav2vec2模型扩展语音识别应用
音频分类wav2vec2声纹识别准确率Github模型开源项目非语言发声Huggingface
该模型利用Nonverbal Vocalization数据集,基于wav2vec2架构,进行非语言声带的分类。可识别诸如咬牙、咳嗽、打哈欠、哭泣等声音分类。Wav2vec2模型不仅提升了语音识别的准确性,还增强了在多语言及多声学场景中的应用。该模型支持简单的部署与系统集成,优化了语音交互的体验。
wav2vec2-base-superb-ks - 高效的关键词识别音频分类模型
关键词识别开源项目语音命令SUPERB模型音频分类HuggingfaceGithubWav2Vec2
Wav2Vec2-Base模型支持SUPERB关键字识别任务,具备高准确性和快速响应的特点。该模型预训练于16kHz语音音频,采用Speech Commands数据集,通过Hugging Face的管道实现关键词检测,适应实时设备应用。
wav2vec2-xlsr-53-russian-emotion-recognition - 俄语语音情感识别工具
XLS-R Wav2Vec2Github情感识别开源项目俄语情感识别Huggingface音频分类情感分类模型
本项目应用XLS-R Wav2Vec2模型进行俄语语音的情感识别,准确率为72%。通过多种情感分类标签,模型可识别愤怒、厌恶、兴奋、恐惧、快乐、中立及悲伤等情感。项目采用MIT许可证,使用Russian Emotional Speech Dialogs数据集,适合对情感识别技术有深入理解和应用需要的用户。
discogs-maest-30s-pw-129e - 基于Transformer架构的音乐音频分析模型
音乐分析Github开源项目MAESTPASST模型音频分类Huggingface音乐风格分类
本项目使用基于Transformer架构的MAEST模型进行音乐分析,利用来自Discogs的公开元数据进行多达400种音乐风格的分类。该模型在音频分类、情感识别等方面表现突出,尤其在中间层的特征提取中效果显著。适用于音频分类任务的用户,非一般音频分类使用。在Essentia和Transformers库的支持下,用户可以实现高效模型推断和下游任务性能提升。
hubert-base-ch-speech-emotion-recognition - 中文情感音频识别模型,使用CASIA数据集及HuBERT预训练
高准确率Github开源项目CASIA数据集模型音频分类Huggingfacehubert-base-ch-speech-emotion-recognition情感识别
项目采用TencentGameMate/chinese-hubert-base模型,在CASIA数据集上进行训练,实现情感识别。CASIA数据集包括6种情感的1200个样本,优化了训练参数,如AdamW优化器和Step_LR学习率调度。模型在测试集上的准确率为97.2%,适用于多种情感分析应用场景。
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号