语音转文字
使用 faster-whisper 进行实时转录
通过使用 Sounddevice 从麦克风接受音频输入。通过使用 Silero VAD(语音活动检测),检测并识别静音部分为单一的语音数据。该音频数据使用 Faster-Whisper 转换为文本。
基于 HTML 的图形用户界面(GUI)允许您检查转录结果并进行详细设置。
转录速度
如果句子分隔得很好,转录耗时不到一秒。
Large-v2 模型
在 NVIDIA GeForce RTX 3060 12GB 上使用 CUDA 11.7 执行。
安装
- pip install .
在 Windows 上
请执行 "run.bat"。它将执行以下操作:
- 创建一个 Python 虚拟环境。
- 安装 pip 包。
- 运行 speech_to_text。
使用
- python -m speech_to_text
- 选择 "App Settings" 并配置设置。
- 选择 "Model Settings" 并配置设置。
- 选择 "Transcribe Settings" 并配置设置。
- 选择 "VAD Settings" 并配置设置。
- 开始转录
如果您使用 OpenAI API 进行文本校对,请将 OPENAI_API_KEY 设置为环境变量。
注意事项
- 如果在 "Model size or path" 中选择 local_model,本地文件夹中同名的模型将被引用。
演示
新闻
2023-06-26
- 新增从输入声音生成音频文件。
- 新增同步音频文件与转录。
音频和文本高亮关联。
2023-06-29
- 新增从音频文件转录。(仅支持 wav 格式)
2023-07-03
- 新增从 WebSocket 服务端发送转录结果到 WebSocket 客户端。
使用示例:在直播中显示字幕。
2023-07-05
- 新增从转录结果生成 SRT 文件。
2023-07-08
- 支持 mp3、ogg 和其他音频文件。
依赖于 Soundfile 的支持。 - 新增设置以包含缓冲区中的非语音数据。
虽然这会增加内存使用,但会提高转录准确性。
2023-07-09
- 新增非语音阈值设置。
2023-07-11
- 新增通过 OpenAI API 进行文本校对选项。
可以校对转录结果。
2023-07-12
- 新增音频和单词高亮同步功能。
如果 Word Timestamps 为真。
2023-10-01
- 支持 transcribe_settings 中的 repetition_penalty 和 no_repeat_ngram_size 。
- 更新包。
2023-11-27
- 支持 "large-v3" 模型。
- 将 faster-whisper 的要求更新到最新版本 "0.10.0"。
2024-07-23
- 支持 "Faster Distil-Whisper" 模型。
- 将 faster-whisper 的要求更新到最新版本 "1.0.3"。
- 更新包。
- 为 Windows 新增 run.bat。
待办事项
-
保存和加载以前的设置。
-
使用 Silero VAD
-
允许从 GUI 设置本地参数。
-
支持 faster-whisper 0.8.0 中的其他选项