JARVIS 项目简介
JARVIS 是一个配备语音助手功能的个人助理,其核心功能是将语音转化为文本,然后生成回答并通过语音返回,所有操作都可以通过网页界面进行展示。这项技术使用户能够通过语音与计算机进行互动,并获得即时的智能回答,就像在与一个有智慧的助手进行对话。
工作原理
JARVIS 的工作流程分为几个步骤:
- :microphone: 用户说话:用户通过麦克风向系统输入语音。
- :keyboard: 语音转文字:系统使用 Deepgram 技术将用户的语音转化为文字。
- :robot: 生成响应:文字输入到 OpenAI 的 GPT-3 API,生成相应的智能回答。
- :loudspeaker: 文字转语音:利用 ElevenLabs 技术,将生成的文字转化为语音。
- :loud_sound: 播放语音:通过 Pygame 播放生成的语音。
- :computer: 网页展示:使用 Taipy 技术将对话内容实时显示在网页界面上。
视频演示
JARVIS 的实际操作可以通过这个视频来观看,视频展示了其在实践中是如何高效运作的。
系统要求
要运行 JARVIS,需要确保使用 Python 3.8 至 3.11 版本。此外,还需要一些 API 密钥:
- Deepgram:用于语音转文字的服务
- OpenAI:用于生成智能回答
- ElevenLabs:用于将文字转语音
安装步骤
-
克隆仓库
首先,使用下列命令从 GitHub 克隆 JARVIS 的代码库:
git clone https://github.com/AlexandreSajus/JARVIS.git
-
安装依赖
进入项目目录并安装所需的库:
pip install -r requirements.txt
-
配置环境变量
在项目的根目录创建一个
.env
文件,并添加 API 密钥:DEEPGRAM_API_KEY=XXX...XXX OPENAI_API_KEY=sk-XXX...XXX ELEVENLABS_API_KEY=XXX...XXX
使用方法
-
启动网页界面
执行以下命令,启动网页接口:
python display.py
-
启动语音助手
在另一个终端中,运行语音助手程序:
python main.py
启动后,网页界面和终端都会显示 Listening...
,表示系统已准备好接收用户的语音输入。当用户讲话完毕,系统会进行处理并生成智能回应,过程结束后会显示 Speaking...
,随后语音回复会播放,并且同时显示在网页界面上。
以上,就是 JARVIS 项目的详细介绍,它致力于为用户提供一个智能、高效的语音互动体验。