wav2vec2-large-xlsr-53-spanish项目介绍
wav2vec2-large-xlsr-53-spanish是一个针对西班牙语自动语音识别(ASR)任务的预训练模型。该模型是在Facebook的wav2vec2-large-xlsr-53模型基础上,使用Common Voice 6.1数据集的训练集和验证集进行微调得到的。
模型特点
-
该模型专门用于识别16kHz采样率的西班牙语语音。
-
模型在Common Voice es测试集上取得了较好的性能:
- 无语言模型时,词错误率(WER)为8.82%,字符错误率(CER)为2.58%
- 加入语言模型后,WER降至6.27%,CER降至2.06%
-
在Robust Speech Event的开发数据集上:
- 无语言模型时,WER为30.19%,CER为13.56%
- 加入语言模型后,WER降至24.71%,CER降至12.61%
使用方法
该模型可以直接使用,无需额外的语言模型。使用时有两种方式:
-
通过HuggingSound库: 只需几行代码即可实现语音识别,使用简单方便。
-
自定义推理脚本: 可以更灵活地控制识别过程,适合有特定需求的用户。
评估方法
项目提供了两种评估方法:
- 在Common Voice 6.0测试集上评估
- 在speech-recognition-community-v2开发数据集上评估
用户可以根据需要选择合适的评估方法。
项目贡献
该项目由Jonatas Grosman开发,使用了OVHcloud慷慨提供的GPU资源。项目的训练脚本已在GitHub上开源,方便其他研究者复现或进一步改进。
总结
wav2vec2-large-xlsr-53-spanish项目为西班牙语自动语音识别提供了一个性能优秀、使用简便的预训练模型。无论是研究人员还是开发者,都可以方便地使用该模型进行西班牙语语音识别任务,为相关应用的开发提供了有力支持。