OpenAI Whisper 实时转录
这是一个通过 Whisper 实现几乎实时转录的快速实验。
如何使用
安装所需的软件包:
pip install -r requirements.txt
运行脚本:
python openai-whisper-realtime.py
依赖项:
- Python > 3.7
- whisper
- sounddevice
- numpy
- asyncio
建议使用非常快速的 CPU 或 GPU。
工作原理
系统默认音频输入通过 python 捕获,分成小块,然后传递给 OpenAI 的原始转录函数。它尝试(目前效果不佳)检测单词间隔,并在这些情况下不分割音频缓冲区。 考虑到模型的设计,这样做没有最合理的效率,但我觉得值得一试。它的效果还算可以。
待办事项:
- 改善转录性能
- 改善单词间隔或暂停的检测,动态分割缓冲区
- 重构
- 清理标准输出