中文说明

安装

GPU 支持 CUDA（推荐）

对于GPU优化安装需要额外的步骤。对于那些需要更好性能且拥有兼容 NVIDIA GPU 的用户，建议执行这些步骤。

注意：要检查您的 NVIDIA GPU 是否支持 CUDA，请访问官方 CUDA GPUs 列表。

要通过 CUDA 使用 RealtimeSTT 的 GPU 支持，请按以下步骤操作：

安装 NVIDIA CUDA Toolkit 11.8：
- 访问 NVIDIA CUDA Toolkit 存档。
- 选择操作系统和版本。
- 下载并安装软件。
安装 NVIDIA cuDNN 8.7.0（适用于 CUDA 11.x）：
- 访问 NVIDIA cuDNN 存档。
- 点击"Download cuDNN v8.7.0 (2022年11月28日)，适用于 CUDA 11.x"。
- 下载并安装软件。
安装 ffmpeg：

您可以从 ffmpeg 网站下载适用于您操作系统的安装程序。
或使用包管理器：
- Ubuntu 或 Debian：
```
sudo apt update && sudo apt install ffmpeg
```
- Arch Linux：
```
sudo pacman -S ffmpeg
```
- MacOS 使用 Homebrew（https://brew.sh/）：
```
brew install ffmpeg
```
- Windows 使用 Chocolatey（https://chocolatey.org/）：
```
choco install ffmpeg
```
- Windows 使用 Scoop（https://scoop.sh/）：
```
scoop install ffmpeg
```

安装支持 CUDA 的 PyTorch：

    pip uninstall torch
    pip install torch==2.0.1+cu118 torchaudio==2.0.2 --index-url https://download.pytorch.org/whl/cu118

其他依赖

pip install -r requirements.txt

如果在 Windows 上安装 webrtcvad 时出现 VS C++ 相关错误，请下载 https://visualstudio.microsoft.com/zh-hans/visual-cpp-build-tools/，安装 C++ 开发相关工具，然后重新安装依赖。

使用说明

启动后端 python RealtimeSTT_server2.py

双击 index.html，在浏览器中运行，填入服务器 IP 地址。注意，关闭服务器的防火墙，或者针对性放行 9001/9002 这两个用于 websocket 连接的端口！

等待后端模型加载完毕后，就可以正常对话了。

更新日志

2024-07-01
- 修复 webui 中聊天类型无法保存的 bug
- 为 webui 的 OpenAI 模型增加自定义配置功能，可以删除后，自定义完回车保存配置
2024-06-03
- 增加了唤醒词的配置，未启用唤醒词功能，测试了下可以通过唤醒词触发录音。唤醒一次，说一些话。
2024-06-02
- 新增了 OpenAI 接口的接入，测试了 ollama，没有问题
- 新增了 Edge-TTS 的接入（方便测试）
2024-05-28
- 补充了 webui，方便配置（不过并不完整，凑合用）
- 补充了 gpt-sovits 新 api 的兼容

RealtimeSTT

易于使用、低延迟的实时应用语音转文字库

关于项目

RealtimeSTT 监听麦克风并将语音转换为文字。

它适用于：

语音助手
需要快速精确语音转文字的应用

https://github.com/KoljaB/RealtimeSTT/assets/7604638/207cb9a2-4482-48e7-9d2b-0722c3ee6d14

更新

v0.1.9

切换到 torch.multiprocessing
添加了 compute_type、input_device_index 和 gpu_device_index 参数
recorder.text() 可通过 recorder.abort() 中断
修复 #20 问题

v0.1.8

添加了示例，展示如何从浏览器麦克风实时转录
现在支持large-v3 whisper模型（升级到faster_whisper 0.10.0）
添加了feed_audio()函数和use_microphone参数以输入音频片段

v0.1.7

修复Mac OS安装问题（多进程 / queue.size()）
处理KeyboardInterrupt（现在可以用CTRL+C中止）
修复加载动画处理（在某些情况下可能导致异常）

v0.1.6

实现上下文管理器协议（录音器可以在with语句中使用）
修复shutdown方法中的资源管理问题

v0.1.5

修复句子检测后立即检测短语的问题（视频中提到的问题）
主要转录和录音功能现已移至使用多进程的单独进程上下文中

提示： 由于我们现在使用multiprocessing模块，请确保在代码中包含if __name__ == '__main__':保护，以防止意外行为，特别是在Windows等平台上。有关为什么这很重要的详细解释，请访问Python官方文档中关于multiprocessing的说明。

功能

语音活动检测：自动检测开始和停止说话的时间。
实时转录：实时将语音转换为文本。
唤醒词激活：可以通过检测指定的唤醒词来激活。

提示：查看RealtimeTTS，这是本库的输出对应部分，用于文本转语音功能。它们共同构成了大型语言模型的强大实时音频包装器。

技术栈

本库使用：

语音活动检测
- WebRTCVAD用于初步语音活动检测。
- SileroVAD用于更准确的验证。
语音转文本
- Faster_Whisper用于即时（GPU加速）转录。
唤醒词检测
- Porcupine用于唤醒词检测。

这些组件代表了尖端应用的"行业标准"，为构建高端解决方案提供了最现代和有效的基础。

安装

pip install RealtimeSTT

这将安装所有必要的依赖项，包括仅支持CPU版本的PyTorch。

虽然可以仅使用CPU安装来运行RealtimeSTT（在这种情况下，请使用"tiny"或"base"等小型模型），但使用以下方法会获得更好的体验：

GPU支持与CUDA（推荐）

对于GPU优化安装需要额外的步骤。这些步骤推荐给那些需要更好性能并拥有兼容NVIDIA GPU的用户。

注意：要检查您的NVIDIA GPU是否支持CUDA，请访问官方CUDA GPU列表。

要通过CUDA使用RealtimeSTT的GPU支持，请按以下步骤操作：

安装NVIDIA CUDA Toolkit 11.8：
- 访问NVIDIA CUDA Toolkit存档。
- 选择操作系统和版本。
- 下载并安装软件。
安装NVIDIA cuDNN 8.7.0（适用于CUDA 11.x）：
- 访问NVIDIA cuDNN存档。
- 点击"Download cuDNN v8.7.0 (November 28th, 2022), for CUDA 11.x"。
- 下载并安装软件。
安装ffmpeg：

您可以从ffmpeg网站下载适用于您操作系统的安装程序。

或使用包管理器：
- 在Ubuntu或Debian上：
```
sudo apt update && sudo apt install ffmpeg
```
- 在Arch Linux上：
```
sudo pacman -S ffmpeg
```
- 在MacOS上使用Homebrew (https://brew.sh/)：
```
brew install ffmpeg
```
- 在Windows上使用Chocolatey (https://chocolatey.org/)：
```
choco install ffmpeg
```
- 在Windows上使用Scoop (https://scoop.sh/)：
```
scoop install ffmpeg
```

安装支持CUDA的PyTorch：

pip uninstall torch
pip install torch==2.0.1+cu118 torchaudio==2.0.2 --index-url https://download.pytorch.org/whl/cu118

快速入门

基本用法：

手动录音

录音的开始和停止由手动触发。

recorder.start()
recorder.stop()
print(recorder.text())

自动录音

基于语音活动检测的录音。

with AudioToTextRecorder() as recorder:
    print(recorder.text())

当在循环中运行recorder.text时，建议使用回调函数，以便异步进行转录：

def process_text(text):
    print(text)
    
while True:
    recorder.text(process_text)

唤醒词

在检测语音之前进行关键词激活。将您想要的激活关键词以逗号分隔的列表形式写入wake_words参数。您可以从以下列表中选择唤醒词：alexa, americano, blueberry, bumblebee, computer, grapefruits, grasshopper, hey google, hey siri, jarvis, ok google, picovoice, porcupine, terminator。

recorder = AudioToTextRecorder(wake_words="jarvis")

print('说"Jarvis"然后开始讲话。')
print(recorder.text())

回调函数

您可以设置回调函数在不同事件上执行（参见配置）：

def my_start_callback():
    print("录音开始！")

def my_stop_callback():
    print("录音停止！")

recorder = AudioToTextRecorder(on_recording_start=my_start_callback,
                               on_recording_stop=my_stop_callback)

输入音频数据

如果您不想使用本地麦克风，请将use_microphone参数设置为false，并使用此方法提供16位单声道（采样率16000）的原始PCM音频数据：

recorder.feed_audio(audio_chunk)

关闭

您可以通过使用上下文管理器协议安全地关闭录音器：

with AudioToTextRecorder() as recorder:
    [...]

或者，如果无法使用"with"语句，您可以手动调用shutdown方法：

recorder.shutdown()

测试库

test子目录包含一组脚本，帮助您评估和理解RealtimeTTS库的功能。

依赖RealtimeTTS库的测试脚本可能要求您在脚本中输入Azure服务区域。使用OpenAI、Azure或Elevenlabs相关的演示脚本时，API密钥应在环境变量OPENAI_API_KEY、AZURE_SPEECH_KEY和ELEVENLABS_API_KEY中提供（参见RealtimeTTS）

simple_test.py
- 描述：库最简单用法的"Hello World"风格演示。
realtimestt_test.py
- 描述：展示实时转录。
wakeword_test.py
- 描述：唤醒词激活的演示。
translator.py
- 依赖：运行pip install openai realtimetts。
- 描述：实时翻译成六种不同语言。
openai_voice_interface.py
- 依赖：运行pip install openai realtimetts。
- 描述：通过唤醒词激活的OpenAI API语音用户界面。
advanced_talk.py
- 依赖：运行pip install openai keyboard realtimetts。
- 描述：在开始AI对话前选择TTS引擎和语音。
minimalistic_talkbot.py
- 依赖：运行pip install openai realtimetts。
- 描述：20行代码实现的基本对话机器人。

example_app子目录包含一个基于PyQt5的OpenAI API精致用户界面应用程序。

配置

`AudioToTextRecorder`的初始化参数

初始化AudioToTextRecorder类时，您可以使用各种选项来自定义其行为。

通用参数

model（str，默认值="tiny"）：用于转录的模型大小或路径。
- 选项：'tiny', 'tiny.en', 'base', 'base.en', 'small', 'small.en', 'medium', 'medium.en', 'large-v1', 'large-v2'。
- 注意：如果提供大小，模型将从Hugging Face Hub下载。
language（str，默认值=""）：转录的语言代码。如果留空，模型将尝试自动检测语言。支持的语言代码列在Whisper Tokenizer库中。
compute_type（str，默认值="default"）：指定用于转录的计算类型。参见Whisper量化
input_device_index（int，默认值=0）：要使用的音频输入设备索引。
gpu_device_index（int，默认值=0）：要使用的GPU设备索引。也可以通过传递ID列表（如[0, 1, 2, 3]）在多个GPU上加载模型。
on_recording_start：录音开始时触发的可调用函数。
on_recording_stop：录音结束时触发的可调用函数。
on_transcription_start：转录开始时触发的可调用函数。
ensure_sentence_starting_uppercase（布尔值，默认为True）：确保算法检测到的每个句子以大写字母开头。
ensure_sentence_ends_with_period（布尔值，默认为True）：确保不以"？"、"！"等标点符号结尾的每个句子以句号结尾。
use_microphone（布尔值，默认为True）：使用本地麦克风进行转录。如果想通过feed_audio方法提供音频块，请设置为False。
spinner（布尔值，默认为True）：提供带有当前录音机状态信息的旋转动画文本。
level（整数，默认为logging.WARNING）：日志记录级别。

实时转录参数

注意：启用实时描述时强烈建议使用GPU安装。使用实时转录可能会造成较高的GPU负载。

enable_realtime_transcription（布尔值，默认为False）：启用或禁用实时音频转录。设置为True时，音频将在录制过程中持续转录。
realtime_model_type（字符串，默认为"tiny"）：指定用于实时转录的机器学习模型的大小或路径。
- 有效选项：'tiny'、'tiny.en'、'base'、'base.en'、'small'、'small.en'、'medium'、'medium.en'、'large-v1'、'large-v2'。
realtime_processing_pause（浮点数，默认为0.2）：指定一块音频被转录后的时间间隔（以秒为单位）。较低的值将导致更"实时"（频繁）的转录更新，但可能增加计算负载。
on_realtime_transcription_update：实时转录有更新时触发的回调函数。该函数以新转录的文本作为参数被调用。
on_realtime_transcription_stabilized：实时转录有更新时触发的回调函数，返回质量更高的稳定文本作为参数。

语音激活参数

silero_sensitivity（浮点数，默认为0.6）：Silero语音活动检测的敏感度，范围从0（最不敏感）到1（最敏感）。默认为0.6。
silero_use_onnx（布尔值，默认为False）：启用使用ONNX（开放神经网络交换）格式而非PyTorch格式的Silero预训练模型。默认为False。推荐用于更快的性能。
post_speech_silence_duration（浮点数，默认为0.2）：语音后必须跟随的静音持续时间（以秒为单位），用于确定录音完成。这确保了语音中的短暂停顿不会过早结束录音。
min_gap_between_recordings（浮点数，默认为1.0）：指定一个录音会话结束和另一个开始之间应存在的最小时间间隔（以秒为单位），以防止快速连续录音。
min_length_of_recording（浮点数，默认为1.0）：指定录音会话应持续的最短时间（以秒为单位），以确保有意义的音频捕捉，防止过短或碎片化的录音。
pre_recording_buffer_duration（浮点数，默认为0.2）：正式录音前音频缓冲的时间跨度（以秒为单位）。这有助于抵消语音活动检测固有的延迟，确保不会错过初始音频。
on_vad_detect_start：系统开始监听语音活动时触发的可调用函数。
on_vad_detect_stop：系统停止监听语音活动时触发的可调用函数。

唤醒词参数

wake_words（字符串，默认为""）：用于启动录音的唤醒词。可以提供多个唤醒词，以逗号分隔的字符串形式。支持的唤醒词有：alexa, americano, blueberry, bumblebee, computer, grapefruits, grasshopper, hey google, hey siri, jarvis, ok google, picovoice, porcupine, terminator
wake_words_sensitivity（浮点数，默认为0.6）：唤醒词检测的敏感度级别（0为最不敏感，1为最敏感）。
wake_word_activation_delay（浮点数，默认为0）：监控开始后，如果最初没有检测到语音，系统切换到唤醒词激活的延迟时间（以秒为单位）。如果设置为零，系统将立即使用唤醒词激活。
wake_word_timeout（浮点数，默认为5）：识别唤醒词后的持续时间（以秒为单位）。如果在此时间窗口内未检测到后续语音活动，系统将转回非活动状态，等待下一个唤醒词或语音激活。
on_wakeword_detected：检测到唤醒词时触发的可调用函数。
on_wakeword_timeout：当唤醒词激活后未检测到语音，系统回到非活动状态时触发的可调用函数。
on_wakeword_detection_start：系统开始监听唤醒词时触发的可调用函数
on_wakeword_detection_end：停止监听唤醒词时触发的可调用函数（例如因超时或检测到唤醒词）