项目介绍:AI Devices
AI Devices 项目是一个智能语音助手,利用多种人工智能模型和服务来为用户提供智能化的响应。该项目支持语音输入、转录、文本到语音的转换、图像处理以及带条件渲染的UI组件。这一项目的灵感来源于近年来如 Humane AI Pin 和 Rabbit R1 等智能设备的趋势。
功能概览
- 语音输入和转录:使用 Groq 或 OpenAI 的 Whisper 模型。
- 文本到语音输出:采用 OpenAI 的TTS模型。
- 图像处理:通过 OpenAI 的 GPT-4 Vision 或 Fal.ai 的 Llava-Next 模型。
- 功能调用和条件渲染的UI组件:使用 OpenAI 的 GPT-3.5-Turbo 模型。
- 可定制的UI设置:包括响应时间、设置切换、文本到语音切换、互联网结果切换和照片上传切换。
- (可选)速率限制:通过 Upstash 实现。
- (可选)跟踪功能:使用 Langchain 的 LangSmith 进行函数执行跟踪。
设置方法
第一步:克隆代码库
git clone https://github.com/developersdigest/ai-devices.git
第二步:安装依赖
npm install
# 或者
bun install
第三步:添加 API 密钥
为了使用这个智能语音助手,需要为所选择的AI模型和服务提供必要的 API 密钥。
-
核心功能所需:
- Groq API Key:用于 Llama + Whisper
- OpenAI API Key:用于 TTS 和 Vision + Whisper
- Serper API Key:用于互联网结果
-
进阶配置可选项:
- Langchain Tracing:用于函数执行跟踪
- Upstash Redis:用于基于IP的速率限制
- Spotify:与 Spotify API 交互
- Fal.AI (Lllava Image Model):用作 GPT-4-Vision 的替代视觉模型
将 'API_KEY_GOES_HERE' 替换为每个服务的实际 API 密钥。
第四步:启动开发服务器
npm run dev
# 或者
bun dev
可以通过 http://localhost:3000
或者提供的 URL 访问应用程序。
第五步:部署
配置
通过修改 app/config.tsx
文件来调整智能语音助手的设置和配置。以下是可用选项的大致概览:
export const config = {
inferenceModelProvider: 'groq',
inferenceModel: 'llama3-8b-8192',
whisperModelProvider: 'openai',
whisperModel: 'whisper-1',
ttsModelProvider: 'openai',
ttsModel: 'tts-1',
ttsvoice: 'alloy',
visionModelProvider: 'google',
visionModel: 'gemini-1.5-flash-latest',
functionCallingModelProvider: 'openai',
functionCallingModel: 'gpt-3.5-turbo',
enableResponseTimes: false,
enableSettingsUIToggle: true,
enableTextToSpeechUIToggle: true,
enableInternetResultsUIToggle: true,
enableUsePhotUIToggle: true,
enabledRabbitMode: true,
enabledLudicrousMode: true,
useAttributionComponent: true,
useRateLimiting: false,
useLangSmith: true,
};
欢迎贡献
欢迎贡献!如果您发现任何问题或有改进建议,请提交问题或拉取请求。
开发者 Digest 的创作者开发了这些项目。如果你觉得这个项目有用或者喜欢他的工作,可以通过以下方式支持:
- Patreon: 在 patreon.com/DevelopersDigest 支持作者
- Buy Me A Coffee: 在 buymeacoffee.com/developersdigest 请作者喝咖啡
- 官方网页: 访问 developersdigest.tech
- GitHub: 在 github.com/developersdigest 跟随作者
- Twitter: 在 twitter.com/dev__digest 关注作者