项目简介:speech-to-text
speech-to-text 是一个实时语音转文字的项目,利用了 faster-whisper 加速技术。它可以接收来自麦克风的音频输入,通过 Silero VAD (语音活动检测)识别静音部分,将完整的音频数据进行文字转换。用户可以通过基于 HTML 的图形化界面查看转录结果并对细节设置进行调整。
主要特性
- 实时转录:利用 faster-whisper 技术进行高效的语音转文字处理,语句分隔良好时转录时间不到一秒。
- 多种音频格式支持:除了直接通过麦克风录入,项目支持从 wav、mp3 和 ogg 文件中进行转录。
- 同步效果:生成音频文件并同步转录结果,音频与文本高亮显示相匹配。
- 使用 OpenAI API 校对:通过设置环境变量 OPENAI_API_KEY,转录结果可以通过 OpenAI API 进行校对。
安装说明
- 通过命令
pip install .
安装项目所需的 Python 库。 - 对于 Windows 用户,可以执行
run.bat
文件,进行如下操作:- 创建 Python 虚拟环境。
- 安装必要的 pip 包。
- 启动 speech-to-text 应用。
使用指南
- 运行命令
python -m speech_to_text
启动项目。 - 进行以下设置:
- 应用设置:调整应用的基础参数。
- 模型设置:配置需要使用的转录模型。
- 转录设置:调整转录相关的参数。
- VAD 设置:配置语音活动检测的细节。
- 开始转录。
最新更新
- 支持“Faster Distil-Whisper”模型:项目支持更新至 faster-whisper 1.0.3 版本,并提供“large-v3”模型支持。
- 新增功能:从输入音频生成音频文件,并且将音频与文字同步。支持生成 SRT 字幕文件。
实用演示
该项目提供了一个演示,可以直观展示项目的实时转录和同步音频文字特性。
开发计划
项目计划通过下述特点不断完善:
- 保存和加载以前的配置。
- 允许在图形化界面中设置本地参数。
- 对更新版本的 faster-whisper 提供支持。
speech-to-text 项目为语音转文字提供了一种快速、便捷的解决方案,适用于需要实时语音处理的场景。项目的持续更新和功能完善为用户提供了更多样化、精准的选择。