项目介绍:wav2vec2-xlsr-1b-finnish-lm-v2
项目背景
wav2vec2-xlsr-1b-finnish-lm-v2
项目是一个面向芬兰语自动语音识别(ASR)的深度学习模型,专门为芬兰语的语音识别任务进行了微调。此项目基于Facebook AI的多语言大规模预训练模型Wav2Vec2 XLS-R,已接受超过43.6万小时的无标签语音数据预训练,覆盖128种语言。该模型使用了Wav2Vec 2.0的目标函数,有助于提高语音识别的精确性。
适用场景
该模型主要用于芬兰语的自动语音识别任务,即将语音转换为文字。它适合用于短语音片段(最长约20秒)认知效果较好。对于较长的语音片段,可以尝试使用音频分块方法来解决内存不足的问题。鉴于其主要受训于芬兰国会的数据集,该模型可能对日常生活中的口语或方言的通用性稍差。
使用方法
要使用此模型,可以参考其代码库中包含的示例笔记本,其中详细介绍了如何应用该模型进行芬兰语的语音识别任务。
模型特点和限制
模型特点
- 语言支持:专为芬兰语语音识别任务进行优化。
- 数据训练:模型经过275.6小时的芬兰语语音转录数据微调。
- 需注意的偏差:由于主要使用数据为芬兰国会录音,该模型可能对儿童和女性的语音识别能力不如成人男性。此外,解码时所用的KenLM语言模型主要由音频转录和部分芬兰维基百科文本训练而成,表示正式书面语的能力较强,对日常口语适应性可能有限。
模型限制
- 模型主要对短音频表现良好,长音频可能会出现性能问题。
- 主要数据源自正式场合,例如议会演讲,会对日常方言及不同性别人群的语音识别产生影响。
训练数据和方法
该模型微调训练的数据来源于多个数据集合:
数据集 | 小时数 | 占比 |
---|---|---|
Common Voice 7.0 芬兰语 | 9.70 h | 3.52 % |
芬兰议会会话 | 228.00 h | 82.73 % |
其他资源 | 37.9 h | 13.75 % |
训练过程中使用了包括Hugging Face提供的训练脚本,且使用了KenLM语言模型配合语音模型的解码阶段。
训练结果
在训练过程中,该模型参数不断优化,其中关键的训练参数包括:
- 学习率:5e-05
- 训练批次大小:32
- 优化器:8-bit Adam
模型评估
该模型在Common Voice 7.0、Common Voice 9.0和FLEURS ASR三个评估数据集上进行测试。其中在Common Voice 7.0测试集上,带有KenLM语言模型时字错率(WER)为4.09,字符错率(CER)为0.88,而不使用KenLM语言模型时字错率为9.73,字符错率为1.65。这表明该模型在使用和不使用语言模型的情况下,语音识别性能都有很大提升。
通过上述介绍,相信大家对wav2vec2-xlsr-1b-finnish-lm-v2
项目有了一个全面的了解,可以在需要进行芬兰语语音识别时考虑使用这个经过优化的模型。