Logo

#语音助手

Logo of pipecat
pipecat
pipecat是一个灵活的框架,用于构建语音和多模态对话代理,适用于个人教练、会议助手、故事讲述玩具、客户支持机器人等应用。通过简单的安装和设置,代理进程可以在本地或云端运行,并支持多种第三方AI服务和传输方式。提供丰富的示例应用和代码片段,帮助开发者快速构建符合特定需求的对话系统。
Logo of glados-voice-assistant
glados-voice-assistant
glados-voice-assistant是一款DIY型的声控助手项目,以GLaDOS角色为灵感,并使用Python构建完成。该项目能够实现语音到文本转换,并具备本地文本到语音的缓存功能,还可以进行动画眼控制以及LCD显示。通过与Home Assistant集成,它能执行灯光控制、读取天气预报等功能,并实现设备控制与传感器数据的读取。
Logo of RealtimeSTT
RealtimeSTT
RealtimeSTT是一个为实时应用设计的语音转文本库。它集成了语音活动检测、实时转录和唤醒词激活等功能,适合开发语音助手和需要快速精确语音转文本的应用。该库采用WebRTCVAD和SileroVAD进行语音检测,Faster_Whisper执行转录,Porcupine或OpenWakeWord负责唤醒词检测,体现了当前语音识别技术的先进水平。
Logo of Recontact
Recontact
Recontact平台利用人工智能技术审核分析债务催收通话,实现自动导入通话记录、分析催收人员表现和客户情况。系统可自动检测违规行为、监控绩效并提供改进建议。其强大的多语言搜索功能支持快速检索大量录音。Recontact与多种呼叫中心软件兼容,助力企业提升债务回收效率并降低运营成本。
Logo of Neon AI
Neon AI
Neon AI开发协作式对话人工智能技术,提供人机协作AI专家团队解决复杂问题。核心技术包括AI语音解决方案、对话促进器和语音助手技术。为金融、制造、医疗等行业提供定制对话AI应用,同时提供专有产品、演示系统和开源软件,助力企业构建智能AI专家和对话式应用。
Logo of J.A.R.V.I.S
J.A.R.V.I.S
J.A.R.V.I.S是一个开源的智能语音助手项目,集成了多项实用功能。它支持动态人脸识别认证、邮件发送、新闻播报和待办事项管理等。该项目还能执行网站访问、音乐播放、天气查询和YouTube搜索等任务。J.A.R.V.I.S通过语音交互方式,为用户提供信息获取和设备控制服务,旨在提升日常生活和工作效率。该项目基于Python开发,整合了多个功能模块。除基本的语音交互外,J.A.R.V.I.S还实现了人脸识别、邮件处理、新闻API集成等高级功能。系统可执行网页浏览、音乐控制、天气报告等日常任务,并支持YouTube视频搜索和下载。J.A.R.V.I.S项目展示了如何利用开源技术构建复杂的智能助手系统。
Logo of ollama-voice-mac
ollama-voice-mac
Ollama-voice-mac是一个离线语音助手,利用Ollama和Whisper语音识别模型工作。通过安装Ollama、Mistral 7b和OpenAI Whisper Model,即可在Mac上运行。该项目基于maudoin的工作进行了改进,兼容Mac,适用于macOS 14 Sonoma及以上版本。通过下载更高质量的系统语音,如'Zoe (Premium)',可提升语音质量。用户也可以通过修改assistant.yaml文件来支持其他语言,方便多语言使用。
Logo of local-talking-llm
local-talking-llm
本教程详细介绍如何在本地构建和运行功能齐全的语音助理,集成语音识别(Whisper)、语言模型对话生成(Langchain和Ollama)、语音合成(Bark)等技术。使用Python实现,适合初学者。提供了关键技术堆栈的使用方法及性能优化和用户界面开发建议。
Logo of PI-Assistant
PI-Assistant
PI-Assistant是一个基于树莓派的开源智能家居语音助手项目。它集成了语音唤醒、语音识别、文字转语音和连续对话等功能,并支持GPT和星火大模型。该项目还提供音乐播放、日程管理、WebUI调参和外设控制等特性,支持自动化智能家居场景。PI-Assistant具有高度可扩展性,适合智能家居爱好者和开发者使用。
Logo of Outskill
Outskill
Outskill是面向日常PC用户的AI桌面语音助手,通过语音指令执行多任务操作。该助手能管理日程、切换应用、搜索信息、设置提醒等,提高工作效率。此外,Outskill支持工作流自动化、数据报告生成、文件智能管理、复杂例程创建和编码辅助。产品提供个性化体验,智能识别用户需求,创新人机交互方式。
Logo of Verbi
Verbi
Verbi是一个开源的模块化语音助手框架,允许在语音转文字、响应生成和文字转语音等组件中灵活切换不同模型。项目集成了OpenAI、Groq和Deepgram等API,并支持本地模型接入。其易于配置的特性和模块化结构,使Verbi成为测试、比较不同语音助手技术的理想平台,适用于开发者、研究人员和技术爱好者。
Logo of make-a-smart-speaker
make-a-smart-speaker
本文提供如何从头开始制作智能音箱的详细指南和优质资源。文章覆盖音频处理、关键词检测、语言理解至文本转语音的全面步骤,介绍开源项目如Mycroft、Snips以及Amazon Alexa和Google Assistant等硬件SDK。提供硬件套件链接,帮助开发者和技术爱好者构建并优化智能音箱项目。
Logo of Python-ai-assistant
Python-ai-assistant
Python-ai-assistant项目是一款基于Python 3.8的智能语音助手,支持异步命令执行和语音识别。主要功能包括打开网页、播放音乐、调节音量、启动办公软件、搜索信息、播报天气、设定闹钟、测试网络速度和可用性、播报新闻、拼写单词、创建提醒、启动Linux应用和执行计算等。在Ubuntu 20.04系统上可以轻松安装和使用,配置简便,立即开始体验智能助手服务。
Logo of Soundverse AI
Soundverse AI
Soundverse AI是一个综合性人工智能音乐平台,集成多种AI工具辅助音乐创作。平台功能包括文本到音乐生成、AI语音助手SAAR、音轨延长、stem分离、歌曲自动完成和歌词生成等。通过简化创作流程,Soundverse AI帮助创作者将想法快速转化为音乐作品,提高创作效率和作品质量。
Logo of Whisperback
Whisperback
这款AI翻译工具专注于有声书和播客的多语种转换。通过50多种语音选项和精准的语音合成技术,实现全球主要语言和方言的高质量、本地化音频翻译。平台致力于消除语言障碍,使全球用户能够便捷地享受多语种有声内容。支持英语、法语、德语、西班牙语等主要语言,精准捕捉口音和地域特色,提供专业的AI驱动翻译体验。
Logo of EfficientWord-Net
EfficientWord-Net
EfficientWord-Net是一个开源的热词检测引擎,基于少样本学习技术,支持开发者添加自定义唤醒词。该项目采用Google的TFLite实现实时推理,架构灵感源自FaceNet的孪生网络。EfficientWord-Net使用Python开发,兼容3.6至3.9版本,提供自定义唤醒词生成和多唤醒词同时检测等功能,适用于家庭助手等应用场景。
Logo of JARVIS
JARVIS
JARVIS, 一个集成多种技术的语音个人助手,支持通过Web界面将用户的语音输入转换为文本,利用高级自然语言处理技术响应用户,兼容Python 3.8至3.11。
Logo of alan-sdk-ios
alan-sdk-ios
alan-sdk-ios是一个开源的iOS语音AI SDK,支持Swift和Objective-C开发。该SDK能为iOS应用快速添加AI助手功能,实现智能语音交互和操作。特点包括集成简单、无需修改UI、支持实时更新对话流程,以及提供全面的测试和分析工具。通过Alan AI平台,开发者可轻松创建、嵌入和管理高质量的iOS对话式AI体验,为应用增添智能语音功能。
Logo of Funny Duck
Funny Duck
Funny Duck平台实现移动语音助手远程控制电脑和物联网设备。用户可自定义语音命令,执行关机、浏览网页、启动应用等多样化任务。支持树莓派、ESP等微控制器集成,拓展智能家居应用。该平台为数字生活和设备管理提供定制化的便捷解决方案。
Logo of Origlio
Origlio
Origlio提供专业的语音消息转录服务,支持WhatsApp和Telegram平台。该工具能将语音快速转换为文字,并提供分段转录和时间标记功能。用户可轻松获取音频内容摘要,提高信息处理效率。Origlio采用AI技术确保转录准确度,适用于无法即时收听或需要快速浏览大量语音信息的场景。未来还将推出跨语言翻译功能,进一步扩展其应用范围。
Logo of gpt-assistant-android
gpt-assistant-android
GPT Assistant是一款基于ChatGPT的Android语音助手应用。用户可通过音量键、状态栏快捷按钮或全局上下文菜单从任意界面唤起,进行语音交互。应用支持预设提问模板、联网搜索、图像识别、连续对话和Markdown渲染。提供多种语音识别接口,实现免费便捷的AI交互体验。