#语音交互

Linguflex - 智能AI助手,支持语音对话与智能家居控制
Linguflex 2.0AI助手语音交互智能家居安装教程Github开源项目
Linguflex是一款模拟真实人类互动的AI助手,支持语音对话、自定义角色、智能家居控制、音乐播放、网络搜索、邮件收取、天气和新闻显示、日程安排等功能。本地操作确保了隐私和快速响应,适合用户和开发者共同参与和贡献。
pi-card - 树莓派上的离线AI智能助手
Raspberry PiAI助手语音交互离线系统计算机视觉Github开源项目
Pi-C.A.R.D是一个完全运行在树莓派上的离线AI智能助手项目。它集成了标准大语言模型的对话能力,同时支持拍照、图像描述和分析功能。该系统通过唤醒词或按钮触发对话,具有可配置的对话记忆功能。Pi-C.A.R.D采用C++实现音频转录和视觉语言模型,确保高效运行,同时保护用户隐私。
yakGPT - 优化本地ChatGPT界面 提升文本生成速度和聊天体验
YakGPTChatGPT界面语音交互API集成本地运行Github开源项目
YakGPT是一个本地运行的ChatGPT界面,支持GPT-3.5和GPT-4模型。项目特点包括语音交互、快速响应和数据隐私保护。集成语音识别和合成功能,直连API提高响应速度,支持麦克风输入。用户可使用个人API密钥,保障数据安全。支持本地运行和Vercel部署,所有状态本地存储,无需安装额外应用。适用于需要高效、安全AI对话体验的用户。
xiaogpt - 为小米AI音箱集成多种语言模型的开源项目
xiaogpt小爱同学AI对话ChatGPT语音交互Github开源项目
xiaogpt是一个开源项目,旨在为小米AI音箱集成多种先进语言模型,包括ChatGPT、New Bing和ChatGLM等。该项目允许用户通过简单命令与AI助手对话,提升小爱同学的智能水平。支持多种配置选项,如不同TTS引擎、自定义提示词和关键字、流式响应等,使用户可以根据需求定制AI音箱体验。
aiavatarkit - 快速构建智能对话虚拟形象的开源工具
AIAvatarKitAI对话虚拟形象语音交互多平台支持Github开源项目
AIAvatarKit是一个开源工具包,专为快速开发智能对话虚拟形象而设计。该工具支持在VRChat、cluster等元宇宙平台和现实设备上运行,提供高度可扩展性和便捷的使用体验。AIAvatarKit集成了语音识别、自然语言处理和语音合成等技术,使开发者能够创建交互式虚拟角色,实现多样化的应用场景。
Buddy.ai - 为儿童设计的AI互动英语学习平台
AI工具Buddy英语学习AI虚拟家教教育科技语音交互
Buddy.ai是一款儿童在线英语学习平台,结合人工智能和语音识别技术。平台提供游戏化课程,激发学习兴趣,允许灵活学习。获得家长教师好评和教育科技奖项,Buddy.ai为儿童创造轻松有效的英语学习环境,助力从零开始掌握口语技能。
Vocode - 构建和部署高度真实的开源语音AI代理
AI工具Vocode语音AI代理开源人工智能语音交互
Vocode是一个开源语音AI代理平台,提供构建、部署和扩展语音助手的工具。支持全天候运行、多语言交互和自定义语言模型。具备电话菜单导航、知识库连接等功能。平台提供简单API,兼容多种语音识别和合成模型,方便开发者快速创建语音AI应用。
Scoopika - 开源平台助力多模态AI应用开发
AI工具AI代理API工具语音交互知识库数据提取
Scoopika开源平台为开发者提供多模态AI应用构建工具。支持LLM和AI代理,适用于AI聊天界面和数据提取。平台具备实时交互能力,内置流式处理、内存加密和错误恢复。集成语音交互、知识库和视觉处理,API简洁,类型安全,提升开发效率和可靠性。
helpmee.ai - 智能AI助手提供全天候多语言科技支持服务
AI工具AI助手老年人科技支持屏幕共享语音交互OpenAI
helpmee.ai是专为老年人设计的AI科技助手,通过语音对话和屏幕共享提供全天候多语言技术支持,帮助用户轻松完成电脑任务,提升数字技能和独立性。
Realistics AI - 创新虚拟人交互应用
AI工具RealisticsAI技术聊天应用语音交互iOS平台
Realistics AI为用户提供多样化的虚拟人交互体验,包括语言教学、商业指导、日常聊天等功能。应用支持文字和语音交流,目前在iOS平台beta测试,计划未来扩展至Android和网页版。Realistics AI致力于提升虚拟人的真实感,为用户创造独特的交互和学习机会。
GPT 4o - 突破性多模态AI模型现已免费开放
AI工具GPT 4o人工智能语音交互多模态模型OpenAI
OpenAI最新推出的GPT 4o多模态AI模型,整合了文本、音频和图像的实时处理能力。相较于前代GPT-4,GPT 4o在实时语音交互、情感识别表达和视觉处理方面均有显著提升。该模型现已向所有用户免费开放,同时为开发者提供了更具性价比的API服务。GPT 4o带来的自然对话体验,标志着AI应用进入了新阶段。
Kids ChatGPT - 儿童专属AI聊天机器人,寓教于乐的互动平台
AI工具儿童聊天隐私保护语音交互图片识别会员服务
Kids ChatGPT是一个面向儿童的AI聊天机器人平台,通过趣味对话促进学习和社交技能发展。这款儿童教育工具注重内容安全和隐私保护,支持语音输入和图片上传功能。平台为儿童创造安全、有趣且富有教育意义的AI互动学习体验,让孩子们在轻松愉快的氛围中探索知识、培养能力,真正实现寓教于乐。
Vee - 智能对话顾问系统,优化企业业务流程
AI工具Vee智能顾问语音交互商业流程用户体验
Vee是智能对话顾问系统,专注于外呼服务、效率提升和智能生态系统构建。基于数百万次用户交互经验,Vee为各行业企业提供全面的业务流程优化解决方案,旨在提高运营效率和客户满意度。
myGPTReader - 多功能智能阅读工具 支持网页文档摘要和语音交互
AI工具myGPTReaderAI聊天机器人内容阅读语音交互文档总结
myGPTReader作为一款智能阅读工具,能够快速处理和总结各类信息源,包括网页、文档、电子书和YouTube视频。它具备多语言语音交互功能,提供热点新闻摘要,同时支持多种内容创作。通过AI对话方式,用户可以更有效地理解和处理信息,从而提高阅读效率和学习效果。这款工具适用于学习、工作和日常信息获取等多种场景,是一个功能全面的智能阅读和内容创作平台。
Short Circuit - 跨平台ChatGPT应用,集成Siri和Shortcuts功能
AI工具ChatGPTAI助手iOS应用语音交互隐私保护
Short Circuit是一款适用于iPhone、iPad和Mac的ChatGPT应用。它允许用户自定义AI角色、创造力和OpenAI模型,提供个性化对话体验。该应用集成了Siri和Shortcuts功能,内置事实核查机制,并重视用户隐私。Short Circuit提供订阅制和一次性终身解锁两种付费选择。无论是日常交流还是复杂任务,这款应用都能作为便捷的AI助手。
Chatworm - 开源ChatGPT客户端 快速便捷的AI对话体验
AI工具ChatwormChatGPTAI对话API集成语音交互
Chatworm是一款开源的ChatGPT客户端,通过API直接访问多种AI模型,包括GPT-4和Claude。它提供语音对话、图像生成和分析等功能,支持自定义聊天参数。与官方相比,Chatworm响应更快,成本更低,具有更高的成本效益。该产品提供网页版、Android和Windows应用,是ChatGPT的实用替代选择,为用户提供功能丰富、性价比高的AI对话体验。
The Business Engineer AI - 智能商业工程师交互平台
AI工具语音交互用户界面录音功能对话系统通信方式
The Business Engineer AI平台提供多样化的交互方式,包括按住说话、点击录音和空格键录音功能,方便用户与智能系统进行语音对话。平台配备实时文字记录功能,支持查看对话内容和文字输入。作为一个智能商业咨询工具,该平台致力于为企业和个人提供高效的商业问题解决方案。平台可应用于财务分析、市场策略制定、运营优化等多个商业领域,帮助用户快速获取专业建议和洞见。
SiteGuide - 智能语音导航工具,提升网站用户体验
AI工具SiteGuide网站助手客户服务语音交互AI技术
SiteGuide是一款创新的网站导航工具,通过语音交互帮助访客快速找到所需信息。它能即时学习网站内容,自动导航到相关页面,提高用户体验和转化率。SiteGuide采用先进AI技术,准确回答问题并实时学习。该工具适合各类用户,包括老年人和视力障碍人士,有效扩大网站受众。此外,SiteGuide还能分析访客需求,帮助改进网站内容。集成简便,支持Wix平台,只需一行代码即可使用。
folotoy-server-self-hosting - AI 对话服务器支持多种语言模型和语音技术
Folotoy自托管服务器语音交互大型语言模型MQTTGithub开源项目
folotoy-server-self-hosting 是一个自托管的 AI 对话服务器。它支持语音输入输出,集成多种语言模型、语音识别和文本转语音技术。该项目通过 MQTT 发布对话数据,提供灵活的 AI 交互体验。适合开发者和爱好者自定义 AI 对话解决方案。
esp-box - 集成离线语音和边缘AI的开源AIoT开发平台
ESP-BOXESP32-S3AIoT开发平台语音交互Github开源项目
ESP-BOX是一款基于ESP32-S3 SoC的开源AIoT开发平台。它集成了离线语音助手、边缘AI处理能力,可用于开发智能家居控制器、在线AI聊天机器人等多种应用。该平台提供完整的硬件设计和固件源码,并支持多种开发框架,为AIoT应用开发提供了灵活多样的开发环境。
airunner - 本地运行的多模态AI界面:语言模型与图像生成集成
AI Runner人工智能图像生成语音交互本地运行Github开源项目
AI Runner整合了开源大型语言模型和AI图像生成技术,为用户提供本地运行的多模态AI体验。它支持语音交互、文本创作、图像生成等功能,具备快速处理能力和多模型并行运行特性。该项目注重离线使用和用户隐私保护,核心程序禁止网络连接,并采取严格的安全措施。
alexa-skills-kit-sdk-for-java - 适用于Java开发者的Alexa技能开发套件
ASK SDKJavaAlexa技能开发语音交互Github开源项目
alexa-skills-kit-sdk-for-java是亚马逊提供的Java开发工具包,用于简化Alexa技能的创建过程。该SDK支持多种Alexa功能,如Amazon Pay、音频播放、显示模板等,使开发者能够专注于核心功能实现。工具包还包含丰富的示例和教程,方便开发者快速上手并构建各类Alexa技能。这个SDK为开发者提供了全面的Alexa技能开发支持,涵盖从基础功能到高级特性的各个方面。除了核心功能外,SDK还集成了多个实用组件,如DynamoDB持久化适配器和Apache客户端,进一步提升了开发效率。对于想要快速构建高质量Alexa技能的Java开发者来说,这是一个理想的选择。
talk-to-chatgpt - 语音交互增强ChatGPT使用体验
Talk-to-ChatGPTChrome扩展语音交互AI助手可访问性Github开源项目
Talk-to-ChatGPT是Chrome和Edge浏览器扩展,为ChatGPT提供语音交互功能。通过语音识别和文字转语音技术,用户可与AI进行自然对话。扩展集成ElevenLabs API支持自定义语音,并提供语速、语音类型和语言等多项设置。这不仅增强了用户体验,还为老年人和残障人士提供了便利的AI交互方式。
Qwen2-Audio-7B - 多模态音频语言模型 支持语音交互和内容分析
模型Qwen2-AudioGithub开源项目语音交互Huggingface音频语言模型音频分析自然语言处理
Qwen2-Audio-7B是一个创新的音频语言模型,具备处理多种音频输入的能力。该模型提供语音聊天和音频分析两种交互模式,支持自由语音对话及音频文本混合分析。模型发布了预训练和对话两个版本,为音频理解和处理领域带来了新的可能性。
VideoChat - 通过GLM-4-Voice和级联语音方案实现低延迟交互的数字人对话系统
数字人语音交互音色克隆GLM-4-VoiceMuseTalkGithub开源项目
数字人对话系统提供支持实时语音交互的平台,采用GLM-4-Voice结合ASR-LLM-TTS-THG技术,实现低延迟和音色克隆。用户可选择端到端或级联系统,享受3秒首包延迟的优势。项目支持本地部署和多种推理方式,结合FunASR、Qwen和MuseTalk技术,提升视频和语音合成稳定性。该系统为开发者提供灵活高效的语音对话解决方案。