项目介绍
nb-wav2vec2-1b-bokmaal是一个用于挪威语博克马尔语(Bokmål)的自动语音识别(ASR)模型。这个模型是在Facebook/Meta的XLS-R特征提取器的基础上微调而来的。经过微调后,该模型在测试集上取得了优异的成绩:
- 词错误率(WER): 0.0633 (使用5-gram语言模型)
- 字符错误率(CER): 0.0248 (使用5-gram语言模型)
没有使用语言模型时,WER为0.0738,CER为0.0263。
模型特点
-
这是由NbAiLab团队在Hugging Face举办的Robust Speech Event活动中开发的几个Wav2Vec模型之一。
-
在所有开发的模型中,这个1B参数的博克马尔语模型表现最佳,WER达到了6.33%。
-
模型使用了挪威议会语音语料库(NPSC)进行训练,该语料库已被转换为Hugging Face数据集格式。
-
开发团队公开了所有代码,以便挪威NLP社区能够在此基础上开发更好的ASR模型。
-
使用普通GPU,按照说明可以在一天内训练出自己的ASR系统。
训练细节
-
训练过程参考了Hugging Face提供的指南。
-
开发团队提供了run.sh和run_speech_recognition_ctc.py文件,可以用于复现结果。
-
添加了5-gram语言模型来提升性能,可以使用挪威巨型语料库(NCC)构建。
-
详细的训练参数已在项目页面列出,包括学习率、批次大小、dropout率等。
-
使用这些设置,在普通GPU上训练可能需要3-4天时间。
应用前景
-
为挪威语自动语音识别提供了新的基准。
-
可作为进一步研究和改进挪威语ASR的基础。
-
为挪威NLP社区提供了宝贵的资源和起点。
-
有助于提高挪威语音技术的整体水平。
-
为其他语言的ASR模型开发提供了参考。
通过这个项目,NbAiLab团队大大推进了挪威语自动语音识别技术的发展,为未来更多创新奠定了基础。