#语音助手

pipecat - 开发多模态对话代理的灵活框架
PipecatAI语音助手多模态聊天机器人Github开源项目
pipecat是一个灵活的框架,用于构建语音和多模态对话代理,适用于个人教练、会议助手、故事讲述玩具、客户支持机器人等应用。通过简单的安装和设置,代理进程可以在本地或云端运行,并支持多种第三方AI服务和传输方式。提供丰富的示例应用和代码片段,帮助开发者快速构建符合特定需求的对话系统。
ollama-voice-mac - 离线可用的Mac专用语音助手
ollama-voice-macMistral 7bWhisper语音助手离线识别Github开源项目
Ollama-voice-mac是一个离线语音助手,利用Ollama和Whisper语音识别模型工作。通过安装Ollama、Mistral 7b和OpenAI Whisper Model,即可在Mac上运行。该项目基于maudoin的工作进行了改进,兼容Mac,适用于macOS 14 Sonoma及以上版本。通过下载更高质量的系统语音,如'Zoe (Premium)',可提升语音质量。用户也可以通过修改assistant.yaml文件来支持其他语言,方便多语言使用。
make-a-smart-speaker - 制作智能扬声器的资源集合
智能扬声器语音识别开源项目语音助手语音处理Github
本文提供如何从头开始制作智能音箱的详细指南和优质资源。文章覆盖音频处理、关键词检测、语言理解至文本转语音的全面步骤,介绍开源项目如Mycroft、Snips以及Amazon Alexa和Google Assistant等硬件SDK。提供硬件套件链接,帮助开发者和技术爱好者构建并优化智能音箱项目。
JARVIS - 智能语音个人助手
JARVIS语音助手OpenAI GPT-3PythonWeb接口Github开源项目
JARVIS, 一个集成多种技术的语音个人助手,支持通过Web界面将用户的语音输入转换为文本,利用高级自然语言处理技术响应用户,兼容Python 3.8至3.11。
glados-voice-assistant - 基于 Portal 视频游戏系列中的 GLaDOS 角色的 DIY 语音助手
GLaDOS Voice Assistant人工智能语音助手树莓派Home AssistantGithub开源项目
glados-voice-assistant是一款DIY型的声控助手项目,以GLaDOS角色为灵感,并使用Python构建完成。该项目能够实现语音到文本转换,并具备本地文本到语音的缓存功能,还可以进行动画眼控制以及LCD显示。通过与Home Assistant集成,它能执行灯光控制、读取天气预报等功能,并实现设备控制与传感器数据的读取。
local-talking-llm - 本地构建语音助理的教程,集成Whisper、Ollama和Bark技术
WhisperOllamaBark语言模型语音助手Github开源项目
本教程详细介绍如何在本地构建和运行功能齐全的语音助理,集成语音识别(Whisper)、语言模型对话生成(Langchain和Ollama)、语音合成(Bark)等技术。使用Python实现,适合初学者。提供了关键技术堆栈的使用方法及性能优化和用户界面开发建议。
Python-ai-assistant - 基于Python 3.8的智能语音助手,支持自然语言处理与自动化任务
JarvisPython语音助手AIUbuntuGithub开源项目
Python-ai-assistant项目是一款基于Python 3.8的智能语音助手,支持异步命令执行和语音识别。主要功能包括打开网页、播放音乐、调节音量、启动办公软件、搜索信息、播报天气、设定闹钟、测试网络速度和可用性、播报新闻、拼写单词、创建提醒、启动Linux应用和执行计算等。在Ubuntu 20.04系统上可以轻松安装和使用,配置简便,立即开始体验智能助手服务。
alan-sdk-ios - iOS语音AI助手SDK 轻松集成对话式AI体验
Alan AI对话式AIiOS SDK语音助手人工智能Github开源项目
alan-sdk-ios是一个开源的iOS语音AI SDK,支持Swift和Objective-C开发。该SDK能为iOS应用快速添加AI助手功能,实现智能语音交互和操作。特点包括集成简单、无需修改UI、支持实时更新对话流程,以及提供全面的测试和分析工具。通过Alan AI平台,开发者可轻松创建、嵌入和管理高质量的iOS对话式AI体验,为应用增添智能语音功能。
RealtimeSTT - 实时语音转文本库 适用于低延迟应用
RealtimeSTT语音转文本实时转录语音助手唤醒词Github开源项目
RealtimeSTT是一个为实时应用设计的语音转文本库。它集成了语音活动检测、实时转录和唤醒词激活等功能,适合开发语音助手和需要快速精确语音转文本的应用。该库采用WebRTCVAD和SileroVAD进行语音检测,Faster_Whisper执行转录,Porcupine或OpenWakeWord负责唤醒词检测,体现了当前语音识别技术的先进水平。
PI-Assistant - 树莓派智能家居语音助手 开源多功能可扩展
树莓派语音助手智能家居MQTTHomeAssistantGithub开源项目
PI-Assistant是一个基于树莓派的开源智能家居语音助手项目。它集成了语音唤醒、语音识别、文字转语音和连续对话等功能,并支持GPT和星火大模型。该项目还提供音乐播放、日程管理、WebUI调参和外设控制等特性,支持自动化智能家居场景。PI-Assistant具有高度可扩展性,适合智能家居爱好者和开发者使用。
Soundverse AI - 多功能AI音乐创作平台
AI工具AI音乐生成语音助手音乐扩展音轨分离歌词生成
Soundverse AI是一个综合性人工智能音乐平台,集成多种AI工具辅助音乐创作。平台功能包括文本到音乐生成、AI语音助手SAAR、音轨延长、stem分离、歌曲自动完成和歌词生成等。通过简化创作流程,Soundverse AI帮助创作者将想法快速转化为音乐作品,提高创作效率和作品质量。
Funny Duck - 移动语音助手远程操控电脑与智能设备
AI工具语音助手电脑控制IoT设备自定义命令智能家居
Funny Duck平台实现移动语音助手远程控制电脑和物联网设备。用户可自定义语音命令,执行关机、浏览网页、启动应用等多样化任务。支持树莓派、ESP等微控制器集成,拓展智能家居应用。该平台为数字生活和设备管理提供定制化的便捷解决方案。
Recontact - 智能债务催收通话审核与分析系统
AI工具AI审核电话分析客户洞察代理绩效语音助手
Recontact平台利用人工智能技术审核分析债务催收通话,实现自动导入通话记录、分析催收人员表现和客户情况。系统可自动检测违规行为、监控绩效并提供改进建议。其强大的多语言搜索功能支持快速检索大量录音。Recontact与多种呼叫中心软件兼容,助力企业提升债务回收效率并降低运营成本。
Outskill - 桌面语音助手提升PC操作效率
AI工具OutSkillAI助手语音助手桌面助理生产力工具
Outskill是面向日常PC用户的AI桌面语音助手,通过语音指令执行多任务操作。该助手能管理日程、切换应用、搜索信息、设置提醒等,提高工作效率。此外,Outskill支持工作流自动化、数据报告生成、文件智能管理、复杂例程创建和编码辅助。产品提供个性化体验,智能识别用户需求,创新人机交互方式。
Whisperback - 多语言有声书和播客AI翻译服务
AI工具语音合成文本转语音多语言语音技术语音助手
这款AI翻译工具专注于有声书和播客的多语种转换。通过50多种语音选项和精准的语音合成技术,实现全球主要语言和方言的高质量、本地化音频翻译。平台致力于消除语言障碍,使全球用户能够便捷地享受多语种有声内容。支持英语、法语、德语、西班牙语等主要语言,精准捕捉口音和地域特色,提供专业的AI驱动翻译体验。
Origlio - 音频转文字服务 快速处理语音信息
AI工具音频转录WhatsAppTelegramAI技术语音助手
Origlio提供专业的语音消息转录服务,支持WhatsApp和Telegram平台。该工具能将语音快速转换为文字,并提供分段转录和时间标记功能。用户可轻松获取音频内容摘要,提高信息处理效率。Origlio采用AI技术确保转录准确度,适用于无法即时收听或需要快速浏览大量语音信息的场景。未来还将推出跨语言翻译功能,进一步扩展其应用范围。
Neon AI - 专注人机协作的对话式AI技术公司
AI工具Neon AI人工智能对话式AI协作式AI语音助手
Neon AI开发协作式对话人工智能技术,提供人机协作AI专家团队解决复杂问题。核心技术包括AI语音解决方案、对话促进器和语音助手技术。为金融、制造、医疗等行业提供定制对话AI应用,同时提供专有产品、演示系统和开源软件,助力企业构建智能AI专家和对话式应用。
Verbi - 灵活的开源语音助手框架 支持多模型实验与对比
Verbi语音助手模块化设计API集成开源项目Github
Verbi是一个开源的模块化语音助手框架,允许在语音转文字、响应生成和文字转语音等组件中灵活切换不同模型。项目集成了OpenAI、Groq和Deepgram等API,并支持本地模型接入。其易于配置的特性和模块化结构,使Verbi成为测试、比较不同语音助手技术的理想平台,适用于开发者、研究人员和技术爱好者。
EfficientWord-Net - 开源的少样本自定义唤醒词检测引擎
EfficientWord-Net热词检测少样本学习语音助手PythonGithub开源项目
EfficientWord-Net是一个开源的热词检测引擎,基于少样本学习技术,支持开发者添加自定义唤醒词。该项目采用Google的TFLite实现实时推理,架构灵感源自FaceNet的孪生网络。EfficientWord-Net使用Python开发,兼容3.6至3.9版本,提供自定义唤醒词生成和多唤醒词同时检测等功能,适用于家庭助手等应用场景。
gpt-assistant-android - 基于ChatGPT的Android语音助手 随时随地快速获取AI回复
GPT AssistantAndroid语音助手OpenAI API无障碍服务Github开源项目
GPT Assistant是一款基于ChatGPT的Android语音助手应用。用户可通过音量键、状态栏快捷按钮或全局上下文菜单从任意界面唤起,进行语音交互。应用支持预设提问模板、联网搜索、图像识别、连续对话和Markdown渲染。提供多种语音识别接口,实现免费便捷的AI交互体验。
J.A.R.V.I.S - 开源智能语音助手实现多功能自动化
J.A.R.V.I.S语音助手人工智能Python项目开源软件Github开源项目
J.A.R.V.I.S是一个开源的智能语音助手项目,集成了多项实用功能。它支持动态人脸识别认证、邮件发送、新闻播报和待办事项管理等。该项目还能执行网站访问、音乐播放、天气查询和YouTube搜索等任务。J.A.R.V.I.S通过语音交互方式,为用户提供信息获取和设备控制服务,旨在提升日常生活和工作效率。该项目基于Python开发,整合了多个功能模块。除基本的语音交互外,J.A.R.V.I.S还实现了人脸识别、邮件处理、新闻API集成等高级功能。系统可执行网页浏览、音乐控制、天气报告等日常任务,并支持YouTube视频搜索和下载。J.A.R.V.I.S项目展示了如何利用开源技术构建复杂的智能助手系统。
DiVA-llama-3-v0-8b - 基于Llama的端到端双模态语音助手系统
语音识别Github开源项目语音助手模型人工智能模型Huggingface模型训练DiVA Llama 3
DiVA-llama-3-v0-8b是一个基于Llama-3.1-8B-Instruct的端到端语音助手系统,集成了语音和文本双模态输入功能。模型通过蒸馏损失训练方法开发,使用CommonVoice语料库训练,无需额外指令训练数据。该项目提供在线演示界面,并在Weights&Biases平台公开了完整训练日志。
Home-3B-v3-GGUF - 多语言智能家居控制与问答AI模型
StableLMHome Assistant智能家居语音助手HuggingfaceGithub开源项目模型人工智能
Home-3B-v3-GGUF是一款基于StableLM-3B-Zephyr模型优化的AI助手,专注于智能家居控制和基础问答功能。该模型支持多语言交互,能够执行设备控制、功能调用和基本逻辑任务。通过GGUF量化技术,它适用于树莓派等资源受限环境。在JSON功能调用准确性测试中,模型达到97.11%的高分。Home-3B-v3-GGUF为智能家居领域的非商业研究提供了实用的解决方案。