项目介绍
这个项目是一个针对葡萄牙语语音识别的模型,名为"wav2vec2-large-xlsr-53-portuguese"。它是在Facebook的wav2vec2-large-xlsr-53模型基础上,使用Common Voice 6.1数据集的训练集和验证集进行微调得到的。
模型特点
- 该模型专门用于葡萄牙语语音识别
- 基于Facebook的多语言预训练模型wav2vec2-large-xlsr-53
- 使用Common Voice 6.1数据集进行微调
- 支持16kHz采样率的语音输入
- 无需语言模型即可直接使用
使用方法
该模型可以通过两种方式使用:
-
使用HuggingSound库: 可以通过几行简单的Python代码加载模型并进行语音转录。
-
自定义推理脚本: 用户可以编写自己的推理脚本,加载模型和处理器,然后对音频数据进行预处理和转录。
性能评估
该模型在Common Voice pt测试集上的表现如下:
- 词错误率(WER): 11.31%
- 字符错误率(CER): 3.74%
加入语言模型后的性能更佳:
- 词错误率(WER): 9.01%
- 字符错误率(CER): 3.21%
在Robust Speech Event开发数据集上的表现:
- 词错误率(WER): 42.1%
- 字符错误率(CER): 17.93%
加入语言模型后:
- 词错误率(WER): 36.92%
- 字符错误率(CER): 16.88%
评估方法
项目提供了评估脚本,可以在不同数据集上评估模型性能。用户可以通过命令行运行评估脚本,指定模型ID、数据集、配置和分割等参数。
项目贡献
该项目由Jonatas Grosman开发,并得到了OVHcloud提供的GPU计算资源支持。训练脚本可在GitHub上找到。如果使用该模型,建议在论文中引用相关信息。
总的来说,这是一个针对葡萄牙语的高性能语音识别模型,具有良好的准确性和易用性,为葡萄牙语语音识别任务提供了有力的工具支持。