whisper-small-fa 项目介绍
项目概述
whisper-small-fa 是在 OpenAI 的 whisper-small 模型基础上进行微调后的版本,该微调模型训练使用了 Common Voice 第17版数据集中的波斯语数据 (fa 配置)。在模型的评估测试集中,whisper-small-fa 模型取得了 35.4973 的词错误率 (WER)。该模型适用于自动语音识别任务,能够从音频中转换和识别语音内容。
数据集和评估指标
数据集
whisper-small-fa 所采用的数据集为 Common Voice Version 17.0,语言为波斯语,数据集类型为 common_voice_17_0。模型的性能通过在测试集上的表现进行评估。
评估指标
该项目使用词错误率(WER)作为主要的评估指标。WER 值为 35.4973,这意味着模型在识别测试集中词的错误率为约35.5%。
模型训练
训练超参数
在训练模型的过程中,使用了一下超参数:
- 学习率 (learning_rate): 1e-05
- 训练批次大小 (train_batch_size): 16
- 验证批次大小 (eval_batch_size): 16
- 随机种子 (seed): 42
- 优化器 (optimizer): Adam,参数为 betas=(0.9,0.999),epsilon=1e-08
- 学习率调度器类型 (lr_scheduler_type): 线性
- 学习率预热步数 (lr_scheduler_warmup_steps): 500
- 训练步骤 (training_steps): 100000
- 混合精度训练 (mixed_precision_training): Native AMP
训练结果
训练过程中,模型在不同训练步数下的损失和词错误率 (WER) 变化情况如下表所示:
训练损失 | 训练轮次 | 训练步数 | 验证损失 | WER |
---|---|---|---|---|
0.0193 | 8.1103 | 20000 | 0.5349 | 36.7125 |
0.0046 | 16.2206 | 40000 | 0.6839 | 36.0033 |
0.0018 | 24.3309 | 60000 | 0.7936 | 36.2543 |
0.0003 | 32.4412 | 80000 | 0.8729 | 35.9406 |
0.0 | 40.5515 | 100000 | 0.9258 | 35.4973 |
使用框架版本
- Transformers 版本:4.45.1
- Pytorch 版本:2.4.1+cu121
- Datasets 版本:3.0.1
- Tokenizers 版本:0.20.0
该项目虽然取得了一定的效果,但由于打分偏高,后续可能需要更多的优化和改进工作。此外,相较于实际应用场景,模型性能需要进一步提升。在使用模型时,请对其局限性保持清醒的认识。