项目介绍:Aura 声音助手
介绍
Aura 是一款智能语音助手,专注于为用户提供低延迟的响应体验。该项目采用市面上先进的技术,包括 Vercel Edge Functions、Whisper 语音识别、GPT-4o 和 Eleven Labs 语音合成流媒体。Aura 的设计灵感来源于我们日常生活中对语音助手的广泛需求,不仅限于手机或家用设备,而是将这种体验延伸到网络世界中。
主要功能
- 提供类似 Siri 的浏览器内语音助手
- 针对低延迟响应进行了优化
- 结合 OpenAI、Whisper 语音识别和 Eleven Labs 的强大功能
项目动机
语音助手已经成为我们日常生活的重要组成部分,出现在各种设备中。然而,以前网络上使用语音助手的主要问题是延迟太长。一方面,这种延迟是因为音频上传服务器、生成语言模型结果、再到语音返回的过程太耗时。另一方面,最近的技术进展,如 OpenAI、Eleven Labs 和 Vercel 的发展,使得构建一个快速、高效的网络语音助手成为可能。
关于低延迟与用户体验的思考
在语音助手的用户体验中,延迟是最为关键的因素。延迟主要来自三个方面:
- 音频转录时间(通过 Whisper 语音识别)
- 响应生成时间(通过 GPT-4o Mini)
- 语音流媒体响应时间(通过 Eleven Labs TTS)
在项目的实验中,语音生成所花费的时间最长并且不太可预测。为改善这一问题,计划通过将响应拆分为多个部分并依次流式传输,让用户在等待完整响应生成时,可以提前开始聆听部分内容。同时,缩短感知等待时间也有助于提升用户体验,比如在处理响应时,给出像“思考中”的提示。
安装步骤
-
克隆项目代码库:
git clone https://github.com/ntegrals/aura-voice
-
获得 OpenAI 和 Eleven Labs 的 API Key,并编辑环境变量文件:
将
.env.example
复制为.env.local
并填入 API keys:OPENAI_API_KEY="YOUR OPENAI API KEY" NEXT_PUBLIC_ELEVENLABS_API_KEY="YOUR ELEVENLABS API KEY"
-
安装依赖:
npm install
-
启动应用:
npm run dev
-
部署到 Vercel
联系方式
如有项目讨论、指导需求或招聘意愿,欢迎通过邮件 j.schoen@mail.com 或 Twitter [@julianschoen] 联系。若您想支持项目开发,也可以通过 Buy Me A Coffee 平台表达支持。
免责声明
请注意,Aura 语音助手是一个实验性应用,没有任何明示或默示的保证。用户需自行承担使用软件的相关风险,包括但不限于数据丢失、系统故障等问题。此外,使用 GPT-4 模型可能会涉及较高的费用,建议定期监控 OpenAI 的 API 使用情况以避免意外的费用支出。
该项目遵循 MIT 许可证,详细信息请参阅项目中的 LICENSE
文件。