项目概述
这个项目是基于OpenAI的whisper-base.en模型,针对Azure-dataset数据集进行微调的语音识别模型。该模型被命名为whisper-base-bungoma.en,主要用于英语语音识别任务。
模型性能
在评估数据集上,该模型展现出了不错的性能表现:
- 最终损失值(Loss)达到了0.0636
- 词错误率(WER)为25.2804% 这个结果表明模型在语音识别任务中具有较好的实用价值。
训练细节
该模型的训练过程采用了以下关键参数:
- 学习率设置为1e-05
- 训练批次大小为16
- 评估批次大小为8
- 随机种子设为42
- 优化器选用Adam,其中beta参数为(0.9,0.999),epsilon为1e-08
- 学习率调度采用线性策略
- 预热步数设置为250步
- 总训练步数为1000步
训练进展
模型在训练过程中展现出稳定的性能提升:
- 在250步时,验证损失为0.2390,词错误率为29.3356%
- 在500步时,验证损失显著下降至0.0774,词错误率改善到21.8292%
- 在750步时,验证损失为0.0921,词错误率为22.8645%
- 在训练结束时(1000步),验证损失达到最优的0.0636,最终词错误率为25.2804%
技术环境
该项目使用了主流的深度学习框架和工具:
- Transformers 4.39.1
- Pytorch 2.2.1
- Datasets 2.18.0
- Tokenizers 0.15.2
应用场景
这个模型主要针对英语语音识别任务,可以应用于需要将英语语音转换为文本的各种场景。考虑到其性能表现,特别适合对准确度要求适中的应用场景。
许可说明
该模型采用Apache-2.0许可证发布,这意味着用户可以自由使用、修改和分发该模型,同时需要遵守相应的开源协议要求。