aura-voice - 智能低延迟语音助手

项目介绍：Aura 声音助手

介绍

Aura 是一款智能语音助手，专注于为用户提供低延迟的响应体验。该项目采用市面上先进的技术，包括 Vercel Edge Functions、Whisper 语音识别、GPT-4o 和 Eleven Labs 语音合成流媒体。Aura 的设计灵感来源于我们日常生活中对语音助手的广泛需求，不仅限于手机或家用设备，而是将这种体验延伸到网络世界中。

主要功能

提供类似 Siri 的浏览器内语音助手
针对低延迟响应进行了优化
结合 OpenAI、Whisper 语音识别和 Eleven Labs 的强大功能

项目动机

语音助手已经成为我们日常生活的重要组成部分，出现在各种设备中。然而，以前网络上使用语音助手的主要问题是延迟太长。一方面，这种延迟是因为音频上传服务器、生成语言模型结果、再到语音返回的过程太耗时。另一方面，最近的技术进展，如 OpenAI、Eleven Labs 和 Vercel 的发展，使得构建一个快速、高效的网络语音助手成为可能。

关于低延迟与用户体验的思考

在语音助手的用户体验中，延迟是最为关键的因素。延迟主要来自三个方面：

音频转录时间（通过 Whisper 语音识别）
响应生成时间（通过 GPT-4o Mini）
语音流媒体响应时间（通过 Eleven Labs TTS）

在项目的实验中，语音生成所花费的时间最长并且不太可预测。为改善这一问题，计划通过将响应拆分为多个部分并依次流式传输，让用户在等待完整响应生成时，可以提前开始聆听部分内容。同时，缩短感知等待时间也有助于提升用户体验，比如在处理响应时，给出像“思考中”的提示。

安装步骤

克隆项目代码库：

git clone https://github.com/ntegrals/aura-voice

获得 OpenAI 和 Eleven Labs 的 API Key，并编辑环境变量文件：

将 .env.example 复制为 .env.local 并填入 API keys：
```
OPENAI_API_KEY="YOUR OPENAI API KEY"
NEXT_PUBLIC_ELEVENLABS_API_KEY="YOUR ELEVENLABS API KEY"
```
安装依赖：
```
npm install
```
启动应用：
```
npm run dev
```
部署到 Vercel

联系方式

如有项目讨论、指导需求或招聘意愿，欢迎通过邮件 j.schoen@mail.com 或 Twitter [@julianschoen] 联系。若您想支持项目开发，也可以通过 Buy Me A Coffee 平台表达支持。

免责声明

请注意，Aura 语音助手是一个实验性应用，没有任何明示或默示的保证。用户需自行承担使用软件的相关风险，包括但不限于数据丢失、系统故障等问题。此外，使用 GPT-4 模型可能会涉及较高的费用，建议定期监控 OpenAI 的 API 使用情况以避免意外的费用支出。

该项目遵循 MIT 许可证，详细信息请参阅项目中的 LICENSE 文件。