#LibriSpeech

wav2vec2-base-960h - Facebook开发的高效语音识别模型
模型GithubWav2Vec2开源项目Huggingface语音识别LibriSpeech自然语言处理深度学习
wav2vec2-base-960h是Facebook开发的语音识别模型,基于960小时LibriSpeech数据集训练。在LibriSpeech clean/other测试集上,词错误率分别为3.4%和8.6%。模型可从原始音频学习表征,仅需1小时标记数据即可超越现有方法,展示了低资源语音识别的潜力。
wavlm-libri-clean-100h-base-plus - WavLM微调模型在LibriSpeech数据集上的语音识别性能
微调模型Github开源项目Huggingface语音识别LibriSpeech自然语言处理WavLM
本模型是基于microsoft/wavlm-base-plus在LibriSpeech ASR - CLEAN数据集上微调而来。经过3个epoch的训练,模型在评估集上达到0.0819的损失和6.83%的词错率。训练过程采用多GPU并行计算,使用Adam优化器和线性学习率调度器。模型的词错率从初始的100%显著降低至约7%,体现了其在语音识别任务上的卓越表现。模型基于Transformers 4.15.0.dev0和PyTorch 1.9.0+cu111框架,在8个GPU上进行分布式训练,并采用了Native AMP混合精度训练技术,有效提高了计算效率。
sew-d-tiny-100k-ft-ls100h - SEW-D架构语音识别模型实现性能与效率的优化平衡
模型Github语音识别深度学习LibriSpeechSEW-DHuggingface开源项目自然语言处理
sew-d-tiny-100k-ft-ls100h是基于SEW-D架构的预训练语音识别模型,在LibriSpeech数据集上经过微调。模型在clean测试集和other测试集上分别达到10.47%和22.73%的词错误率,同时推理速度比wav2vec 2.0提升1.9倍。这一模型在保持识别准确率的基础上大幅提高了效率,可应用于自动语音识别、说话人识别等多种语音处理任务,为相关领域提供了性能与效率兼具的解决方案。
wav2vec2-conformer-rope-large-960h-ft - Wav2Vec2 Conformer模型在Librispeech数据集上的语音识别应用
Huggingface模型语音识别Github开源项目LibriSpeechWav2Vec2自然语言处理Conformer
这是一个基于Wav2Vec2 Conformer架构的语音识别模型,采用旋转位置嵌入技术,在Librispeech数据集的960小时音频上完成预训练和微调。模型在Librispeech测试集上表现优异,'clean'和'other'子集的词错误率分别为1.96%和3.98%。支持16kHz采样的语音输入,适用于精确的语音转文本任务。
wav2vec2-large-960h-lv60-self - Wav2Vec2大规模语音识别模型实现低词错误率
模型自训练Github语音识别模型评估开源项目HuggingfaceWav2Vec2LibriSpeech
Wav2Vec2-large-960h-lv60-self是一个基于Wav2Vec2技术的大规模语音识别模型。该模型在960小时的Libri-Light和Librispeech数据集上进行预训练和微调,采用自训练方法。在LibriSpeech清晰测试集上,模型实现1.9%的词错误率,其他测试集上为3.9%。模型可直接用于音频转录,特别适合标记数据有限的语音识别任务。
s2t-small-librispeech-asr - 小型LibriSpeech语音识别模型的高效自动化
语音转换文本Speech2TextHuggingfaceLibriSpeechGithub开源项目模型s2t-small-librispeech-asr自动语音识别
s2t-small-librispeech-asr是一种小型端到端语音识别模型,使用LibriSpeech ASR语料库进行训练。该模型采用自回归的方式生成转录文本,并结合Pytorch及其工具如torchaudio和sentencepiece以提高准确性。在LibriSpeech“clean”和“other”测试集上的WER分别为4.3和9.0,可满足高性能语音识别应用的需求。
wavlm-base - 适用于多语音任务的自监督预训练模型
LibriSpeechWavLM音频分类自监督学习语音识别模型Github开源项目Huggingface
WavLM是基于自监督学习的语音预训练模型,旨在支持多种语音任务。模型在960小时Librispeech数据集上进行预训练,适用于语音识别和分类等任务,需在下游任务中微调。WavLM通过门控相对位置偏置和发音混合训练策略,强调说话者身份保留和内容建模,在SUPERB基准测试中表现优异。模型主要在英语环境中有良好表现,但目标是提供全语言栈的统一表示。
投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号