项目概述
whisper-tiny.en是一个基于OpenAI Whisper模型的微调版本,专门用于语音识别任务。该项目在Azure-dataset数据集上进行了训练,旨在提供更好的英语语音识别能力。
技术细节
基础模型
该项目是在openai/whisper-tiny.en的基础上开发的,继承了原始Whisper模型的核心功能,并通过微调进行了优化。
性能指标
在评估集上,该模型展现出了以下性能:
- 损失值(Loss):0.0680
- 词错误率(WER):44.3486%
训练过程
训练参数
模型采用了精心调优的超参数配置:
- 学习率:1e-05
- 训练批次大小:16
- 评估批次大小:8
- 随机种子:42
- 优化器:Adam(beta参数为0.9和0.999,epsilon为1e-08)
- 学习率调度器:线性调度
- 预热步数:250步
- 总训练步数:1000步
训练效果
训练过程展示了显著的进展:
- 初始阶段(250步):验证损失为0.6131,词错误率为26.66%
- 中期阶段(500步):验证损失降至0.0882,词错误率为43.05%
- 后期阶段(750步):验证损失进一步降至0.0723,词错误率为43.66%
- 最终阶段(1000步):验证损失达到0.0680,词错误率为44.35%
技术环境
该项目使用了最新的深度学习框架和工具:
- Transformers 4.39.1
- Pytorch 2.2.1
- Datasets 2.18.0
- Tokenizers 0.15.2
应用场景
该模型主要适用于英语语音识别场景,可以应用于:
- 语音转文字服务
- 音频内容分析
- 语音助手系统
- 会议记录转写
开发说明
项目采用Apache-2.0许可证,支持英语语言处理,并且可以在相关的语音识别任务中进行进一步的优化和改进。作为一个开源项目,它为开发者提供了良好的起点,可以基于此进行更深入的开发和定制化需求实现。