wav2vec2-large-xls-r-300m-Urdu项目介绍
wav2vec2-large-xls-r-300m-Urdu是一个针对乌尔都语自动语音识别(ASR)任务的预训练模型。该模型是基于Facebook的wav2vec2-xls-r-300m模型在Common Voice 8.0数据集上进行微调得到的。
模型概述
这个模型在Common Voice 8.0的乌尔都语测试集上取得了以下性能:
- 词错率(WER): 39.89%
- 字符错误率(CER): 16.7%
这表明该模型在乌尔都语语音识别任务上具有良好的表现。
训练细节
模型的训练过程采用了以下超参数:
- 学习率: 0.0001
- 训练批次大小: 32
- 评估批次大小: 8
- 随机种子: 42
- 梯度累积步数: 2
- 总训练批次大小: 64
- 优化器: Adam(betas=(0.9,0.999), epsilon=1e-08)
- 学习率调度: 线性衰减
- 预热步数: 1000
- 训练轮数: 200
训练过程中,模型的损失值从初始的3.6398不断下降,最终在验证集上达到0.9889。词错率也从100%逐步降低到56.07%。
使用方法
研究者可以通过Hugging Face的transformers库轻松加载和使用该模型。以下是一个简单的推理示例:
from transformers import pipeline
model = "kingabzpro/wav2vec2-large-xls-r-300m-Urdu"
asr = pipeline("automatic-speech-recognition", model=model)
prediction = asr(audio_file)
模型评估
该模型在Common Voice 8的测试集上进行了评估:
- 不使用语言模型时的WER: 52.03%
- 使用语言模型时的WER: 39.89%
这表明加入语言模型可以显著提升识别准确率。
结论
wav2vec2-large-xls-r-300m-Urdu为乌尔都语语音识别任务提供了一个强大的基线模型。它在Common Voice数据集上展现出良好的性能,为进一步的研究和应用奠定了基础。研究者可以基于此模型进行更多的优化和改进,以应对各种乌尔都语语音识别场景。