项目简介:wav2vec2-xls-r-1b-ca-lm
项目背景
wav2vec2-xls-r-1b-ca-lm是一个自动语音识别模型,致力于识别加泰罗尼亚语。这款模型是在facebook的wav2vec2-xls-r-300m模型基础上进行了微调,主要使用了Mozilla基金会的Common Voice 8.0,加泰罗尼亚语的数据集,以及来自tv3_parla和parlament_parla的数据。
模型描述
此模型为facebook原有的wav2vec2-xls-r-1b模型的微调版本,其通过对现有大规模数据集的微调来提升在加泰罗尼亚语上的性能。
使用目的及局限性
这个模型适用于需要加泰罗尼亚语言识别的任务。但由于数据来源于众包数据集,模型可能受到数据偏差的影响。尤其是在一些加泰罗尼亚语的低资源方言上可能表现不佳。
训练与评估数据
模型训练过程中使用了来自Mozilla基金会和其他来源的多种数据集,并在训练集的测试部分进行了评估。模型评估结果采用了WER(词错误率)和CER(字符错误率)两种指标进行衡量,其在不同数据集测试中的WER和CER值略有不同。
训练过程
训练数据经过了预处理,以去除加泰罗尼亚语字母表之外的字符。数字转化为相应的文字形式是通过一段代码实现的,这段代码由@ccoreilly提供。
训练结果
训练过程及评估结果记录在Tensorboard中,用户可以查看详细的训练记录和训练曲线。
训练超参数
训练中使用了以下超参数:
- 学习率:2e-05
- 训练批次大小:8
- 评估批次大小:8
- 随机种子:42
- 梯度累积步数:8
- 总训练批次大小:64
- 优化器:Adam,参数为betas=(0.9,0.999),epsilon=1e-08
- 学习率调度器类型:linear
- 学习率调度器预热步骤数:2000
- 训练周期:10.0
- 混合精度训练:原生AMP
框架版本
- Transformers 4.17.0.dev0
- Pytorch 1.10.2+cu102
- Datasets 1.18.3
- Tokenizers 0.11.0
致谢
特别感谢@ccoreilly和@gullabi为该模型提供的资源和知识支持,使得这个模型的开发成为可能。