#wav2vec2

wav2vec2-base-vietnamese-250h - wav2vec2提升越南语音识别精度

开源项目模型Github越南语HuggingfaceCTCwav2vec2语音识别自动语音识别

项目应用wav2vec2技术实现越南语的自动语音识别。模型在13000小时的未标注YouTube音频上预训练，并在250小时的VLSP ASR数据集上进行微调，支持16kHz采样音频。结合4-grams语言模型，显著提高了语音识别的准确性，降低了VIVOS数据集的词错误率，从10.77降至6.15。项目使用CC BY-NC 4.0授权，适用于非商业用途。

wav2vec2-xls-r-300m-ftspeech - 基于XLS-R-300m的丹麦语语音识别模型使用FTSpeech数据集微调

XLS-R-300mHuggingfacewav2vec2模型语音识别Github开源项目丹麦语FTSpeech

该丹麦语自动语音识别模型基于wav2vec2-xls-r-300m在FTSpeech数据集上微调。模型利用1,800小时丹麦议会演讲转录数据训练，在Danish Common Voice 8.0和Alvenir测试集上分别实现17.91%和13.84%的词错误率(WER)。这一性能表明，该模型为丹麦语语音识别任务提供了有效的解决方案。

wav2vec2-base-finetuned-sentiment-classification-MESD - 基于Wav2Vec2的西班牙语音情感分析模型准确率达93%

机器学习HuggingfaceGithub西班牙语开源项目模型wav2vec2情感分析语音识别

该模型是在MESD数据集上对wav2vec2-base进行微调的西班牙语音情感分析工具。经过约890条专业录音训练，模型在语音情感识别方面达到93.08%的分类准确率。适用于情感推荐系统、智能环境控制和安全监控等领域。模型在专业录音环境下表现优异，但在嘈杂背景和识别恐惧情绪时存在一定局限性。

filipino-wav2vec2-l-xls-r-300m-official - 基于XLS-R的菲律宾语语音识别模型

模型训练开源项目模型Github机器学习Huggingfacewav2vec2语音识别语音数据集

这是一个针对菲律宾语的语音识别模型，通过在filipino_voice数据集上微调wav2vec2-xls-r-300m实现。经过30轮训练后，模型在测试集上达到了0.2922的词错误率，可用于菲律宾语音频识别任务。

wav2vec2-large-nonverbalvocalization-classification - Nonverbal Vocalization分类的Wav2vec2模型扩展语音识别应用

音频分类wav2vec2声纹识别准确率Github模型开源项目非语言发声Huggingface

该模型利用Nonverbal Vocalization数据集，基于wav2vec2架构，进行非语言声带的分类。可识别诸如咬牙、咳嗽、打哈欠、哭泣等声音分类。Wav2vec2模型不仅提升了语音识别的准确性，还增强了在多语言及多声学场景中的应用。该模型支持简单的部署与系统集成，优化了语音交互的体验。

wav2vec2-btb-cv-ft-btb-cy - 基于微调的语音识别模型，提升准确度与适用性

Huggingface模型优化wav2vec2训练参数开源项目模型自动语音识别Github损失率

此AI模型基于DewiBrynJones的wav2vec2-xlsr-53-ft-btb-cv-cy微调而成，专注提升自动语音识别精确度。评估词错误率为0.3402，表现出明显改善。使用Adam优化器，学习率为0.0003，训练批次为4。适用于高精度需求的语音识别场景，但因缺乏训练数据和用途的细节说明，适用性需谨慎评估。

english-filipino-wav2vec2-l-xls-r-test-09 - XLSR-53架构英语和菲律宾语双语语音识别模型

Huggingfacewav2vec2人工智能语音识别模型Github开源项目语音模型机器学习

这是一个基于wav2vec2-large-xlsr-53-english模型在filipino_voice数据集上微调的英语-菲律宾语语音识别模型。通过20轮训练，模型在评估集上达到1.0054的损失值和57.50%的词错误率。采用Adam优化器、线性学习率调度和混合精度训练等技术，模型性能逐步提升，最终实现了较好的双语语音识别效果。

emotion-recognition-wav2vec2-IEMOCAP - 基于wav2vec2的语音情感识别开源模型

深度学习IEMOCAPHuggingfaceGithub开源项目模型语音情感识别SpeechBrainwav2vec2

基于SpeechBrain框架开发的语音情感识别模型，集成wav2vec2架构并通过IEMOCAP数据集训练。模型采用卷积网络和残差结构，结合注意力机制进行特征提取，在测试集达到78.7%准确率。支持16kHz音频输入并提供自动标准化处理功能，可直接应用于语音情感分析任务。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号