LiveWhisper - 基于Whisper的转录
livewhisper.py
输出伪实时的逐句听写到终端。
使用OpenAI的Whisper模型,以及sounddevice库来监听麦克风。
麦克风的音频如果达到一定的音量和频率阈值就会被存储,然后在检测到静音时,它将音频保存到临时文件并发送给Whisper。
依赖项: Whisper, numpy, scipy, sounddevice
LiveWhisper能作为SpeechRecognition的另一种选择。 尽管现在它已经有自己的Whisper支持,所以取决于你怎么选择。 ;)
Whisper助手
我还包括了assistant.py
,它使用livewhisper为基础,这是我尝试制作一个简单语音命令助手,如Siri,Alexa或Jarvis。
与livewhisper相同的依赖项,还包括requests, pyttsx3, wikipedia, bs4。 还需要: espeak和python3-espeak。
该语音助手可以通过说出它的名字来激活,默认是“computer”,“hey computer”或“okay computer”也可以。你可以等待计算机响应,也可以立即请求一个动作/问题。
可用功能: 天气、日期和时间、讲笑话以及进行维基百科搜索。 它还可以处理一些其他请求,如基本的数学运算或非常简单的小知识。 不过这依赖于Google的即时答案摘要,有时不工作。
使用以下命令控制媒体播放器: 播放、暂停、下一首、上一首、停止、现在播放什么? 媒体控制需要某种形式的噪音/回声消除功能来正常工作。 请参见这个页面了解如何在Linux下的PulseAudio中启用该功能。
你可以通过ctrl+c
关闭助手,或通过说出它的名字和“terminate”。
如果你喜欢我的项目并希望帮助我继续创作更多, 请考虑在我的Ko-fi页面捐赠!谢谢!