项目介绍:ChatGPT-OpenAI-Smart-Speaker
ChatGPT-OpenAI-Smart-Speaker 是一个结合了人工智能和硬件设备的创新项目,它通过 OpenAI 和 Google 的语音识别技术实现智能语音交互。项目的核心是通过声音激活命令来触发 ChatGPT,从而进行语音问答和文本转换功能。以下是该项目的详细介绍:
设备清单
为了构建一个完整的 ChatGPT-OpenAI-Smart-Speaker,项目建议使用以下设备:
- Raspberry Pi 4b(推荐 4GB 版本,但 2GB 也足以运行)
- VMini 外置 USB 立体声扬声器
- VReSpeaker 4 向麦克风阵列
- ANSMANN 10,000mAh Type-C 20W PD 移动电源
在电脑上运行
在电脑上,可以使用 chat.py
或 test.py
脚本进行测试。这些脚本允许用户通过语音输入,并将语音内容转换为文本发送到 OpenAI,然后将生成的文本响应转换为音频并播放。需要注意的是,这些脚本在 Mac 上编写,因此 Windows 和 Linux 可能需要额外的依赖项。chat.py
比较快速且一直处于待命状态,而 test.py
需要通过激活词(当前设置为 "Jeffers")来唤醒。
在 Raspberry Pi 上运行
在 Raspberry Pi 上,建议使用 pi.py
脚本。这个脚本更加先进,模仿真实的智能音箱,通过 PicoVoice 的自定义模型处理唤醒词,从而提高效率和长期使用的可靠性。
前置条件
无论在哪个平台上运行,用户需要具备以下条件:
- 需要一个有效的 OpenAI API 密钥。
- Python 版本需在 3.7.3 或更高。
- 安装必要的 Python 包,如
openai
、gTTS
、pyaudio
等。
为 Raspberry Pi 运行 pi.py
,还需要:
- Tavily 搜索代理 API 密钥
- PicoVoice 的访问密钥以及自定义语音模型
使用方法
对于 chat.py:
- 设置环境变量,确保 API 密钥安全存储;
- 使用命令
python chat.py
运行脚本; - 说出一段话,脚本会将其发送到 OpenAI 并播放生成的音频响应。
对于 pi.py:
- 设定环境变量,包括 OpenAI、PicoVoice 和 Tavily 的 API 密钥;
- 运行
python3 pi.py
; - 说出唤醒词 "Jeffers" 后,设备会开启录音并处理问题,然后生成并播放响应。
自定义功能
用户可以根据需要自定义 OpenAI 的模型引擎、音频文件的语言以及生成响应的随机性(温度参数)。
重要提示
随着时间推移,某些设备可能会被淘汰,如 ReSpeaker 系列。因此建议使用 Raspberry Pi 4b 以及其他兼容设备。同时,对于初次使用者,建议参考项目文档以获取更多关于系统配置及潜在问题的解决方案。
通过该项目,用户可以体验到结合最前沿自然语言处理技术和硬件操作的智能设备所带来的便利与乐趣。