#语音交互

Linguflex - 智能AI助手，支持语音对话与智能家居控制

Linguflex 2.0AI助手语音交互智能家居安装教程Github开源项目

Linguflex是一款模拟真实人类互动的AI助手，支持语音对话、自定义角色、智能家居控制、音乐播放、网络搜索、邮件收取、天气和新闻显示、日程安排等功能。本地操作确保了隐私和快速响应，适合用户和开发者共同参与和贡献。

pi-card - 树莓派上的离线AI智能助手

Raspberry PiAI助手语音交互离线系统计算机视觉Github开源项目

Pi-C.A.R.D是一个完全运行在树莓派上的离线AI智能助手项目。它集成了标准大语言模型的对话能力，同时支持拍照、图像描述和分析功能。该系统通过唤醒词或按钮触发对话，具有可配置的对话记忆功能。Pi-C.A.R.D采用C++实现音频转录和视觉语言模型，确保高效运行，同时保护用户隐私。

yakGPT - 优化本地ChatGPT界面提升文本生成速度和聊天体验

YakGPTChatGPT界面语音交互API集成本地运行Github开源项目

YakGPT是一个本地运行的ChatGPT界面，支持GPT-3.5和GPT-4模型。项目特点包括语音交互、快速响应和数据隐私保护。集成语音识别和合成功能，直连API提高响应速度，支持麦克风输入。用户可使用个人API密钥，保障数据安全。支持本地运行和Vercel部署，所有状态本地存储，无需安装额外应用。适用于需要高效、安全AI对话体验的用户。

xiaogpt - 为小米AI音箱集成多种语言模型的开源项目

xiaogpt小爱同学AI对话ChatGPT语音交互Github开源项目

xiaogpt是一个开源项目，旨在为小米AI音箱集成多种先进语言模型，包括ChatGPT、New Bing和ChatGLM等。该项目允许用户通过简单命令与AI助手对话，提升小爱同学的智能水平。支持多种配置选项，如不同TTS引擎、自定义提示词和关键字、流式响应等，使用户可以根据需求定制AI音箱体验。

aiavatarkit - 快速构建智能对话虚拟形象的开源工具

AIAvatarKitAI对话虚拟形象语音交互多平台支持Github开源项目

AIAvatarKit是一个开源工具包，专为快速开发智能对话虚拟形象而设计。该工具支持在VRChat、cluster等元宇宙平台和现实设备上运行，提供高度可扩展性和便捷的使用体验。AIAvatarKit集成了语音识别、自然语言处理和语音合成等技术，使开发者能够创建交互式虚拟角色，实现多样化的应用场景。

Buddy.ai - 为儿童设计的AI互动英语学习平台

AI工具Buddy英语学习AI虚拟家教教育科技语音交互

Buddy.ai是一款儿童在线英语学习平台，结合人工智能和语音识别技术。平台提供游戏化课程，激发学习兴趣，允许灵活学习。获得家长教师好评和教育科技奖项，Buddy.ai为儿童创造轻松有效的英语学习环境，助力从零开始掌握口语技能。

Vocode - 构建和部署高度真实的开源语音AI代理

AI工具Vocode语音AI代理开源人工智能语音交互

Vocode是一个开源语音AI代理平台，提供构建、部署和扩展语音助手的工具。支持全天候运行、多语言交互和自定义语言模型。具备电话菜单导航、知识库连接等功能。平台提供简单API，兼容多种语音识别和合成模型，方便开发者快速创建语音AI应用。

Scoopika - 开源平台助力多模态AI应用开发

AI工具AI代理API工具语音交互知识库数据提取

Scoopika开源平台为开发者提供多模态AI应用构建工具。支持LLM和AI代理，适用于AI聊天界面和数据提取。平台具备实时交互能力，内置流式处理、内存加密和错误恢复。集成语音交互、知识库和视觉处理，API简洁，类型安全，提升开发效率和可靠性。

helpmee.ai - 智能AI助手提供全天候多语言科技支持服务

AI工具AI助手老年人科技支持屏幕共享语音交互OpenAI

helpmee.ai是专为老年人设计的AI科技助手，通过语音对话和屏幕共享提供全天候多语言技术支持，帮助用户轻松完成电脑任务，提升数字技能和独立性。

Realistics AI - 创新虚拟人交互应用

AI工具RealisticsAI技术聊天应用语音交互iOS平台

Realistics AI为用户提供多样化的虚拟人交互体验，包括语言教学、商业指导、日常聊天等功能。应用支持文字和语音交流，目前在iOS平台beta测试，计划未来扩展至Android和网页版。Realistics AI致力于提升虚拟人的真实感，为用户创造独特的交互和学习机会。

GPT 4o - 突破性多模态AI模型现已免费开放

AI工具GPT 4o人工智能语音交互多模态模型OpenAI

OpenAI最新推出的GPT 4o多模态AI模型，整合了文本、音频和图像的实时处理能力。相较于前代GPT-4，GPT 4o在实时语音交互、情感识别表达和视觉处理方面均有显著提升。该模型现已向所有用户免费开放，同时为开发者提供了更具性价比的API服务。GPT 4o带来的自然对话体验，标志着AI应用进入了新阶段。

Kids ChatGPT - 儿童专属AI聊天机器人，寓教于乐的互动平台

AI工具儿童聊天隐私保护语音交互图片识别会员服务

Kids ChatGPT是一个面向儿童的AI聊天机器人平台，通过趣味对话促进学习和社交技能发展。这款儿童教育工具注重内容安全和隐私保护，支持语音输入和图片上传功能。平台为儿童创造安全、有趣且富有教育意义的AI互动学习体验，让孩子们在轻松愉快的氛围中探索知识、培养能力，真正实现寓教于乐。

Vee - 智能对话顾问系统，优化企业业务流程

AI工具Vee智能顾问语音交互商业流程用户体验

Vee是智能对话顾问系统，专注于外呼服务、效率提升和智能生态系统构建。基于数百万次用户交互经验，Vee为各行业企业提供全面的业务流程优化解决方案，旨在提高运营效率和客户满意度。

myGPTReader - 多功能智能阅读工具支持网页文档摘要和语音交互

AI工具myGPTReaderAI聊天机器人内容阅读语音交互文档总结

myGPTReader作为一款智能阅读工具，能够快速处理和总结各类信息源，包括网页、文档、电子书和YouTube视频。它具备多语言语音交互功能，提供热点新闻摘要，同时支持多种内容创作。通过AI对话方式，用户可以更有效地理解和处理信息，从而提高阅读效率和学习效果。这款工具适用于学习、工作和日常信息获取等多种场景，是一个功能全面的智能阅读和内容创作平台。

Short Circuit - 跨平台ChatGPT应用，集成Siri和Shortcuts功能

AI工具ChatGPTAI助手iOS应用语音交互隐私保护

Short Circuit是一款适用于iPhone、iPad和Mac的ChatGPT应用。它允许用户自定义AI角色、创造力和OpenAI模型，提供个性化对话体验。该应用集成了Siri和Shortcuts功能，内置事实核查机制，并重视用户隐私。Short Circuit提供订阅制和一次性终身解锁两种付费选择。无论是日常交流还是复杂任务，这款应用都能作为便捷的AI助手。

Chatworm - 开源ChatGPT客户端快速便捷的AI对话体验

AI工具ChatwormChatGPTAI对话API集成语音交互

Chatworm是一款开源的ChatGPT客户端，通过API直接访问多种AI模型，包括GPT-4和Claude。它提供语音对话、图像生成和分析等功能，支持自定义聊天参数。与官方相比，Chatworm响应更快，成本更低，具有更高的成本效益。该产品提供网页版、Android和Windows应用，是ChatGPT的实用替代选择，为用户提供功能丰富、性价比高的AI对话体验。

The Business Engineer AI - 智能商业工程师交互平台

AI工具语音交互用户界面录音功能对话系统通信方式

The Business Engineer AI平台提供多样化的交互方式，包括按住说话、点击录音和空格键录音功能，方便用户与智能系统进行语音对话。平台配备实时文字记录功能，支持查看对话内容和文字输入。作为一个智能商业咨询工具，该平台致力于为企业和个人提供高效的商业问题解决方案。平台可应用于财务分析、市场策略制定、运营优化等多个商业领域，帮助用户快速获取专业建议和洞见。

SiteGuide - 智能语音导航工具，提升网站用户体验

AI工具SiteGuide网站助手客户服务语音交互AI技术

SiteGuide是一款创新的网站导航工具，通过语音交互帮助访客快速找到所需信息。它能即时学习网站内容，自动导航到相关页面，提高用户体验和转化率。SiteGuide采用先进AI技术，准确回答问题并实时学习。该工具适合各类用户，包括老年人和视力障碍人士，有效扩大网站受众。此外，SiteGuide还能分析访客需求，帮助改进网站内容。集成简便，支持Wix平台，只需一行代码即可使用。

folotoy-server-self-hosting - AI 对话服务器支持多种语言模型和语音技术

Folotoy自托管服务器语音交互大型语言模型MQTTGithub开源项目

folotoy-server-self-hosting 是一个自托管的 AI 对话服务器。它支持语音输入输出，集成多种语言模型、语音识别和文本转语音技术。该项目通过 MQTT 发布对话数据，提供灵活的 AI 交互体验。适合开发者和爱好者自定义 AI 对话解决方案。

esp-box - 集成离线语音和边缘AI的开源AIoT开发平台

ESP-BOXESP32-S3AIoT开发平台语音交互Github开源项目

ESP-BOX是一款基于ESP32-S3 SoC的开源AIoT开发平台。它集成了离线语音助手、边缘AI处理能力,可用于开发智能家居控制器、在线AI聊天机器人等多种应用。该平台提供完整的硬件设计和固件源码,并支持多种开发框架,为AIoT应用开发提供了灵活多样的开发环境。

airunner - 本地运行的多模态AI界面：语言模型与图像生成集成

AI Runner人工智能图像生成语音交互本地运行Github开源项目

AI Runner整合了开源大型语言模型和AI图像生成技术，为用户提供本地运行的多模态AI体验。它支持语音交互、文本创作、图像生成等功能，具备快速处理能力和多模型并行运行特性。该项目注重离线使用和用户隐私保护，核心程序禁止网络连接，并采取严格的安全措施。

alexa-skills-kit-sdk-for-java - 适用于Java开发者的Alexa技能开发套件

ASK SDKJavaAlexa技能开发语音交互Github开源项目

alexa-skills-kit-sdk-for-java是亚马逊提供的Java开发工具包，用于简化Alexa技能的创建过程。该SDK支持多种Alexa功能，如Amazon Pay、音频播放、显示模板等，使开发者能够专注于核心功能实现。工具包还包含丰富的示例和教程，方便开发者快速上手并构建各类Alexa技能。这个SDK为开发者提供了全面的Alexa技能开发支持，涵盖从基础功能到高级特性的各个方面。除了核心功能外，SDK还集成了多个实用组件，如DynamoDB持久化适配器和Apache客户端，进一步提升了开发效率。对于想要快速构建高质量Alexa技能的Java开发者来说，这是一个理想的选择。

talk-to-chatgpt - 语音交互增强ChatGPT使用体验

Talk-to-ChatGPTChrome扩展语音交互AI助手可访问性Github开源项目

Talk-to-ChatGPT是Chrome和Edge浏览器扩展，为ChatGPT提供语音交互功能。通过语音识别和文字转语音技术，用户可与AI进行自然对话。扩展集成ElevenLabs API支持自定义语音，并提供语速、语音类型和语言等多项设置。这不仅增强了用户体验，还为老年人和残障人士提供了便利的AI交互方式。

Qwen2-Audio-7B - 多模态音频语言模型支持语音交互和内容分析

模型Qwen2-AudioGithub开源项目语音交互Huggingface音频语言模型音频分析自然语言处理

Qwen2-Audio-7B是一个创新的音频语言模型，具备处理多种音频输入的能力。该模型提供语音聊天和音频分析两种交互模式，支持自由语音对话及音频文本混合分析。模型发布了预训练和对话两个版本，为音频理解和处理领域带来了新的可能性。

VideoChat - 通过GLM-4-Voice和级联语音方案实现低延迟交互的数字人对话系统

数字人语音交互音色克隆GLM-4-VoiceMuseTalkGithub开源项目

数字人对话系统提供支持实时语音交互的平台，采用GLM-4-Voice结合ASR-LLM-TTS-THG技术，实现低延迟和音色克隆。用户可选择端到端或级联系统，享受3秒首包延迟的优势。项目支持本地部署和多种推理方式，结合FunASR、Qwen和MuseTalk技术，提升视频和语音合成稳定性。该系统为开发者提供灵活高效的语音对话解决方案。

相关文章

Article Cover

Linguflex: 打造科幻梦想中的AI助手

Article Cover

XiaoGPT: 让小爱音箱变身 AI 助手的开源项目

Article Cover

Pi-CARD：基于树莓派的智能语音助手

Article Cover

AIAvatarKit: 快速构建基于AI的会话式虚拟形象

Article Cover

AIAvatarKit: 快速构建基于AI的会话式虚拟形象

Article Cover

FoloToy服务器自托管：打造个性化智能玩具体验

Article Cover

YakGPT: 一款本地运行的无障碍ChatGPT界面

Article Cover

Linly-Talker: 开创人工智能交互新纪元的数字人对话系统

Article Cover

ESP-BOX：乐鑫推出的新一代AIoT开发平台

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号