#wav2vec 2.0
chinese_speech_pretrain - 中文语音预训练模型,wav2vec 2.0和HuBERT的开源实现
语音预训练模型中文语音识别wav2vec 2.0HuBERTWenetSpeechGithub开源项目
chinese_speech_pretrain项目开源了基于WenetSpeech数据集训练的中文语音预训练模型。项目包含wav2vec 2.0和HuBERT的BASE与LARGE版本,均使用1万小时多样化中文语音数据训练。模型在自动语音识别任务中表现优异,尤其适合低资源场景。项目提供模型下载及使用指南,可用于语音识别、语音合成等研究领域。
wav2vec2-xls-r-300m - Facebook开发的大规模多语言预训练语音模型
Huggingface模型wav2vec 2.0语音识别XLS-RGithub预训练模型开源项目多语言模型
wav2vec2-xls-r-300m是Facebook AI研发的大规模多语言预训练语音模型。该模型在436,000小时的未标记语音数据上预训练,涵盖128种语言,采用wav2vec 2.0目标函数,拥有3亿参数。它可应用于自动语音识别、翻译和分类等任务,在CoVoST-2语音翻译基准测试中显著提升了性能。