在人工智能和自然语言处理领域,预训练模型的出现为各种下游任务带来了显著的性能提升。然而,针对中文语音识别的大规模预训练模型一直是一个亟待解决的挑战。腾讯游戏伙伴团队(TencentGameMate)最近推出的中文语音预训练模型项目,无疑为这一领域带来了突破性的进展。
该项目使用了来自WenetSpeech数据集的1万小时中文语音数据作为无监督预训练语料。这些数据主要源自YouTube和Podcast平台,涵盖了各种录音场景、背景噪声和说话方式。数据内容跨越了10个主要领域,包括有声书、解说、纪录片、电视剧、访谈、新闻、朗读、演讲、综艺节目等,为模型提供了丰富多样的学习素材。
研究团队基于Fairseq工具包,分别训练了wav2vec 2.0和HuBERT两种模型架构。每种架构都包括BASE和LARGE两个版本,以适应不同的应用场景和计算资源限制。
这种训练策略不仅充分利用了硬件资源,还保证了模型训练的高效性和稳定性。
为了方便研究人员和开发者使用,团队在多个平台上提供了模型下载途径:
各个版本的模型都可以通过这些渠道获取,极大地促进了社区的参与和技术的传播。