ollama-voice
将whisper音频转录插入本地ollama服务器并输出tts音频响应
这只是离线模式下三个工具的简单组合:
先决条件
whisper依赖项设置为在GPU上运行,所以在运行pip install
之前先安装Cuda。
运行
安装ollama并确保先在本地启动服务器(在Windows下的WLS中)(例如curl https://ollama.ai/install.sh | sh
)
下载whisper模型并将其放在whisper
子文件夹中(例如 https://openaipublic.azureedge.net/main/whisper/models/e5b1a55b89c1367dacf97e3e19bfd829a01529dbfdeefa8caeb59b3f1b81dadb/large-v3.pt)
配置assistant.yaml
设置。(默认设置为使用ollama mistral模型以法语工作...)
运行assistant.py
按住空格
键说话,松开键时AI会解释查询。
待办事项
- 重新整理代码库
- 多线程以重叠tts和语音识别(ollama已经在远程并行运行)