LiveWhisper 项目介绍
项目概述
LiveWhisper 是一个基于 Whisper 模型的实时转录项目,旨在实现伪实时的逐句口述识别,并在终端输出结果。该项目利用 OpenAI 的 Whisper 模型和 sounddevice 库来监听麦克风信号。音频通过麦克风捕捉到声音,当音量和频率达到一定阈值时,音频会被暂存;当检测到静音时,音频被保存为一个临时文件并发送至 Whisper 进行处理。
项目依赖
LiveWhisper 需要以下依赖:
- Whisper
- numpy
- scipy
- sounddevice
此外,LiveWhisper 可以在某种程度上作为 SpeechRecognition 的替代方案,尽管 SpeechRecognition 已添加了对 Whisper 的支持,用户可以自行决定选择哪个工具。
Whisper 助手
在 LiveWhisper 的基础上,还提供了一个名为 assistant.py
的简单语音命令助手。这一助手尝试模仿 Siri、Alexa 或 Jarvis 等语音助手的基本功能。
额外依赖
除了与 LiveWhisper 相同的依赖外,Whisper 助手还需要以下库:
- requests
- pyttsx3
- wikipedia
- bs4
- espeak
- python3-espeak
功能特性
助手的激活通过语音识别,例如说出默认的唤醒词 "computer","hey computer" 或 "okay computer" 等,可以通过等待助手的回应或直接发出请求来操作。主要功能包括:
- 查询天气
- 获取日期和时间
- 讲笑话
- 进行 Wikipedia 搜索
- 处理基本的数学计算和简单的常识问答,虽然这些依赖 Google's 即时答案,有时可能不起作用
此外,它还支持媒体播放器的控制指令,如播放、暂停、下一首、上一首、停止和查询当前播放内容。需要注意的是,要实现良好的媒体控制功能,需开启某种形式的噪音/回声消除,具体方法可参考这里。
关闭助手
可以通过按下 ctrl+c
终止助手,或通过语音说出助手的名字并加上"terminate"来关闭它。
支持与捐助
如果您喜欢 LiveWhisper 项目并希望支持开发者继续进行更多的项目,您可以考虑通过我的 Ko-fi 页面进行捐助。感谢您的支持!