WhisperLive简介
WhisperLive是一个近乎实时的OpenAI Whisper实现,用于将语音输入转换为文本输出的实时转录应用。它可以转录来自麦克风的实时音频输入和预先录制的音频文件。
主要特性
- 支持实时麦克风输入和预录音频文件转录
- 提供两种后端:faster_whisper和tensorrt
- 支持多语言检测和翻译
- 提供浏览器扩展,可直接在Chrome或Firefox中使用
- 提供Docker部署选项
安装指南
- 安装PyAudio和ffmpeg
- 通过pip安装whisper-live:
pip install whisper-live
快速开始
运行服务器
from whisper_live.server import TranscriptionServer
server = TranscriptionServer()
server.run("0.0.0.0", 9090)
运行客户端
from whisper_live.client import TranscriptionClient
client = TranscriptionClient("localhost", 9090, lang="en")
client() # 从麦克风转录
高级使用
- 支持从RTSP和HLS流转录
- 可以控制OpenMP线程数
- 提供单模型模式以重用模型
相关资源
未来工作
- 在转录基础上添加其他语言的翻译
- 为Whisper提供TensorRT后端
WhisperLive为实时语音转文本提供了一个强大而灵活的开源解决方案。无论是个人项目还是企业应用,它都能满足各种实时转录需求。欢迎访问GitHub仓库了解更多信息,并为项目贡献代码!