faster-whisper简介
faster-whisper是OpenAI Whisper语音识别模型的优化实现,使用CTranslate2作为推理引擎。它的主要特点是:
- 相比原版Whisper,速度提升4倍,内存占用更少
- 支持CPU和GPU上的8位量化,进一步提高效率
- 保持与原版相同的识别精度
安装使用
faster-whisper可以通过pip安装:
pip install faster-whisper
基本使用示例:
from faster_whisper import WhisperModel
model = WhisperModel("large-v2", device="cuda", compute_type="float16")
segments, info = model.transcribe("audio.mp3", beam_size=5)
print("Detected language '%s' with probability %f" % (info.language, info.language_probability))
for segment in segments:
print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))
性能对比
在NVIDIA Tesla V100S GPU上,transcribe 13分钟音频的性能对比:
实现 | 精度 | Beam size | 耗时 | 最大GPU内存 | 最大CPU内存 |
---|---|---|---|---|---|
openai/whisper | fp16 | 5 | 4m30s | 11325MB | 9439MB |
faster-whisper | fp16 | 5 | 54s | 4755MB | 3244MB |
faster-whisper | int8 | 5 | 59s | 3091MB | 3117MB |
可以看到faster-whisper在保持精度的同时,速度和内存占用都有显著改善。
相关资源
- GitHub仓库 - 项目主页,包含详细文档
- PyPI页面 - pip安装包
- Hugging Face模型 - 预训练模型
- 性能优化指南 - 进一步优化速度的技巧
- 在线Demo - 可以在线试用的Demo
总结
faster-whisper在保持识别精度的同时,显著提升了Whisper模型的推理速度和资源效率。它是一个非常实用的语音识别工具,特别适合需要大规模处理音频数据的场景。希望本文汇总的资料能帮助读者快速上手使用faster-whisper,充分发挥其性能优势。