项目简介
wav2vec2-xls-r-300m-mixed项目是一个通过深度学习技术进行语音识别的模型。该模型是基于Facebook提供的wav2vec2-xls-r-300m进行微调,并主要应用于三种语言的语音识别:马来语、新加坡式英语(Singlish)和普通话(Mandarin)。这个项目的目标是实现高效准确的多语言语音识别。
微调详情
该模型使用了一台单个RTX 3090 Ti显卡完成了训练,显存为24GB。这种高效能的硬件配置由Mesolitica公司提供支持,以确保模型在训练过程中的高性能和高效率。
评估集细节
模型的评估数据集来自于Malaya Speech项目的预训练模型数据,具体的细节可以在其GitHub页面中找到。评估集中包含了来自马来语、Singlish和普通话的不同条目的录音,其具体数据条目数量分别为:
- 马来语:765条
- Singlish:3579条
- 普通话:614条
模型评估结果
在混合语音的评估中,模型取得了以下表现:
- 字错误率(CER):0.0481
- 词错误率(WER):0.1322
- 使用语言模型后的CER:0.0412
- 使用语言模型后的WER:0.0988
接下来是分语言的详细评估结果:
马来语评估
- 字错误率(CER):0.0516
- 词错误率(WER):0.1956
- 使用语言模型后的CER:0.0392
- 使用语言模型后的WER:0.1271
Singlish评估
- 字错误率(CER):0.0495
- 词错误率(WER):0.1276
- 使用语言模型后的CER:0.0427
- 使用语言模型后的WER:0.0968
普通话评估
- 字错误率(CER):0.0356
- 词错误率(WER):0.0799
- 使用语言模型后的CER:0.0349
- 使用语言模型后的WER:0.0754
总之,该模型通过整合语言模型和多语言训练集,在语音识别领域展示了出色的性能和鲁棒性。通过优化训练技术和硬件支持,wav2vec2-xls-r-300m-mixed模型为马来语、Singlish和普通话语音识别提供了一个强有力的解决方案。