Distil-Whisper: distil-large-v2 项目介绍
Distil-Whisper: distil-large-v2 是一个经过知识蒸馏的 Whisper 模型变体,旨在提供更快速、更小巧的语音识别解决方案。该项目由 Hugging Face 团队开发,通过在大规模伪标签数据集上进行训练,实现了显著的性能提升。
主要特点
- 速度提升:比原始 Whisper 模型快 6 倍
- 模型缩小:参数量减少 49%
- 性能保持:在分布外评估集上的词错误率(WER)仅差 1%
- 专注英语:目前仅支持英语语音识别
- 开源可用:采用 MIT 许可证发布
技术细节
Distil-Whisper 继承了 Whisper 的编码器-解码器架构,但对解码器进行了优化:
- 编码器完全保留自教师模型
- 解码器层数大幅减少,仅保留两层
- 两层解码器分别初始化自教师模型的第一层和最后一层
- 通过 KL 散度和伪标签损失的加权和进行训练
使用方法
Distil-Whisper 可通过 Hugging Face Transformers 库轻松使用:
- 安装依赖:
pip install --upgrade transformers accelerate datasets[audio]
- 短音频转录:
from transformers import pipeline
pipe = pipeline("automatic-speech-recognition", model="distil-whisper/distil-large-v2")
result = pipe("audio.mp3")
- 长音频转录:
pipe = pipeline("automatic-speech-recognition", model="distil-whisper/distil-large-v2",
chunk_length_s=15, batch_size=16)
result = pipe("long_audio.wav")
性能评估
在 LibriSpeech validation.clean 数据集上,Distil-Whisper 达到了 2.98% 的词错误率,与原始 Whisper 模型相当。
应用场景
Distil-Whisper 适用于需要快速、准确的英语语音识别的场景,尤其适合:
- 实时转录应用
- 移动设备上的语音识别
- 大规模音频数据处理
- 需要低延迟的语音交互系统
未来展望
开发团队正在与社区合作,致力于:
- 支持多语言识别
- 进一步优化 CPU 推理性能
- 提供 8 位和 4 位量化版本
Distil-Whisper 为语音识别技术带来了显著的效率提升,为更广泛的应用场景打开了大门。