#语音助手

pipecat - 开发多模态对话代理的灵活框架

PipecatAI语音助手多模态聊天机器人Github开源项目

pipecat是一个灵活的框架，用于构建语音和多模态对话代理，适用于个人教练、会议助手、故事讲述玩具、客户支持机器人等应用。通过简单的安装和设置，代理进程可以在本地或云端运行，并支持多种第三方AI服务和传输方式。提供丰富的示例应用和代码片段，帮助开发者快速构建符合特定需求的对话系统。

ollama-voice-mac - 离线可用的Mac专用语音助手

ollama-voice-macMistral 7bWhisper语音助手离线识别Github开源项目

Ollama-voice-mac是一个离线语音助手，利用Ollama和Whisper语音识别模型工作。通过安装Ollama、Mistral 7b和OpenAI Whisper Model，即可在Mac上运行。该项目基于maudoin的工作进行了改进，兼容Mac，适用于macOS 14 Sonoma及以上版本。通过下载更高质量的系统语音，如'Zoe (Premium)'，可提升语音质量。用户也可以通过修改assistant.yaml文件来支持其他语言，方便多语言使用。

make-a-smart-speaker - 制作智能扬声器的资源集合

智能扬声器语音识别开源项目语音助手语音处理Github

本文提供如何从头开始制作智能音箱的详细指南和优质资源。文章覆盖音频处理、关键词检测、语言理解至文本转语音的全面步骤，介绍开源项目如Mycroft、Snips以及Amazon Alexa和Google Assistant等硬件SDK。提供硬件套件链接，帮助开发者和技术爱好者构建并优化智能音箱项目。

JARVIS - 智能语音个人助手

JARVIS语音助手OpenAI GPT-3PythonWeb接口Github开源项目

JARVIS, 一个集成多种技术的语音个人助手，支持通过Web界面将用户的语音输入转换为文本，利用高级自然语言处理技术响应用户，兼容Python 3.8至3.11。

glados-voice-assistant - 基于 Portal 视频游戏系列中的 GLaDOS 角色的 DIY 语音助手

GLaDOS Voice Assistant人工智能语音助手树莓派Home AssistantGithub开源项目

glados-voice-assistant是一款DIY型的声控助手项目，以GLaDOS角色为灵感，并使用Python构建完成。该项目能够实现语音到文本转换，并具备本地文本到语音的缓存功能，还可以进行动画眼控制以及LCD显示。通过与Home Assistant集成，它能执行灯光控制、读取天气预报等功能，并实现设备控制与传感器数据的读取。

local-talking-llm - 本地构建语音助理的教程，集成Whisper、Ollama和Bark技术

WhisperOllamaBark语言模型语音助手Github开源项目

本教程详细介绍如何在本地构建和运行功能齐全的语音助理，集成语音识别（Whisper）、语言模型对话生成（Langchain和Ollama）、语音合成（Bark）等技术。使用Python实现，适合初学者。提供了关键技术堆栈的使用方法及性能优化和用户界面开发建议。

Python-ai-assistant - 基于Python 3.8的智能语音助手，支持自然语言处理与自动化任务

JarvisPython语音助手AIUbuntuGithub开源项目

Python-ai-assistant项目是一款基于Python 3.8的智能语音助手，支持异步命令执行和语音识别。主要功能包括打开网页、播放音乐、调节音量、启动办公软件、搜索信息、播报天气、设定闹钟、测试网络速度和可用性、播报新闻、拼写单词、创建提醒、启动Linux应用和执行计算等。在Ubuntu 20.04系统上可以轻松安装和使用，配置简便，立即开始体验智能助手服务。

alan-sdk-ios - iOS语音AI助手SDK 轻松集成对话式AI体验

Alan AI对话式AIiOS SDK语音助手人工智能Github开源项目

alan-sdk-ios是一个开源的iOS语音AI SDK，支持Swift和Objective-C开发。该SDK能为iOS应用快速添加AI助手功能，实现智能语音交互和操作。特点包括集成简单、无需修改UI、支持实时更新对话流程，以及提供全面的测试和分析工具。通过Alan AI平台，开发者可轻松创建、嵌入和管理高质量的iOS对话式AI体验，为应用增添智能语音功能。

RealtimeSTT - 实时语音转文本库适用于低延迟应用

RealtimeSTT语音转文本实时转录语音助手唤醒词Github开源项目

RealtimeSTT是一个为实时应用设计的语音转文本库。它集成了语音活动检测、实时转录和唤醒词激活等功能，适合开发语音助手和需要快速精确语音转文本的应用。该库采用WebRTCVAD和SileroVAD进行语音检测，Faster_Whisper执行转录，Porcupine或OpenWakeWord负责唤醒词检测，体现了当前语音识别技术的先进水平。

PI-Assistant - 树莓派智能家居语音助手开源多功能可扩展

树莓派语音助手智能家居MQTTHomeAssistantGithub开源项目

PI-Assistant是一个基于树莓派的开源智能家居语音助手项目。它集成了语音唤醒、语音识别、文字转语音和连续对话等功能，并支持GPT和星火大模型。该项目还提供音乐播放、日程管理、WebUI调参和外设控制等特性，支持自动化智能家居场景。PI-Assistant具有高度可扩展性，适合智能家居爱好者和开发者使用。

Soundverse AI - 多功能AI音乐创作平台

AI工具AI音乐生成语音助手音乐扩展音轨分离歌词生成

Soundverse AI是一个综合性人工智能音乐平台，集成多种AI工具辅助音乐创作。平台功能包括文本到音乐生成、AI语音助手SAAR、音轨延长、stem分离、歌曲自动完成和歌词生成等。通过简化创作流程，Soundverse AI帮助创作者将想法快速转化为音乐作品，提高创作效率和作品质量。

Funny Duck - 移动语音助手远程操控电脑与智能设备

AI工具语音助手电脑控制IoT设备自定义命令智能家居

Funny Duck平台实现移动语音助手远程控制电脑和物联网设备。用户可自定义语音命令，执行关机、浏览网页、启动应用等多样化任务。支持树莓派、ESP等微控制器集成，拓展智能家居应用。该平台为数字生活和设备管理提供定制化的便捷解决方案。

Recontact - 智能债务催收通话审核与分析系统

AI工具AI审核电话分析客户洞察代理绩效语音助手

Recontact平台利用人工智能技术审核分析债务催收通话，实现自动导入通话记录、分析催收人员表现和客户情况。系统可自动检测违规行为、监控绩效并提供改进建议。其强大的多语言搜索功能支持快速检索大量录音。Recontact与多种呼叫中心软件兼容，助力企业提升债务回收效率并降低运营成本。

Outskill - 桌面语音助手提升PC操作效率

AI工具OutSkillAI助手语音助手桌面助理生产力工具

Outskill是面向日常PC用户的AI桌面语音助手，通过语音指令执行多任务操作。该助手能管理日程、切换应用、搜索信息、设置提醒等，提高工作效率。此外，Outskill支持工作流自动化、数据报告生成、文件智能管理、复杂例程创建和编码辅助。产品提供个性化体验，智能识别用户需求，创新人机交互方式。

Whisperback - 多语言有声书和播客AI翻译服务

AI工具语音合成文本转语音多语言语音技术语音助手

这款AI翻译工具专注于有声书和播客的多语种转换。通过50多种语音选项和精准的语音合成技术，实现全球主要语言和方言的高质量、本地化音频翻译。平台致力于消除语言障碍，使全球用户能够便捷地享受多语种有声内容。支持英语、法语、德语、西班牙语等主要语言，精准捕捉口音和地域特色，提供专业的AI驱动翻译体验。

Origlio - 音频转文字服务快速处理语音信息

AI工具音频转录WhatsAppTelegramAI技术语音助手

Origlio提供专业的语音消息转录服务，支持WhatsApp和Telegram平台。该工具能将语音快速转换为文字，并提供分段转录和时间标记功能。用户可轻松获取音频内容摘要，提高信息处理效率。Origlio采用AI技术确保转录准确度，适用于无法即时收听或需要快速浏览大量语音信息的场景。未来还将推出跨语言翻译功能，进一步扩展其应用范围。

Neon AI - 专注人机协作的对话式AI技术公司

AI工具Neon AI人工智能对话式AI协作式AI语音助手

Neon AI开发协作式对话人工智能技术，提供人机协作AI专家团队解决复杂问题。核心技术包括AI语音解决方案、对话促进器和语音助手技术。为金融、制造、医疗等行业提供定制对话AI应用，同时提供专有产品、演示系统和开源软件，助力企业构建智能AI专家和对话式应用。

Verbi - 灵活的开源语音助手框架支持多模型实验与对比

Verbi语音助手模块化设计API集成开源项目Github

Verbi是一个开源的模块化语音助手框架，允许在语音转文字、响应生成和文字转语音等组件中灵活切换不同模型。项目集成了OpenAI、Groq和Deepgram等API，并支持本地模型接入。其易于配置的特性和模块化结构，使Verbi成为测试、比较不同语音助手技术的理想平台，适用于开发者、研究人员和技术爱好者。

EfficientWord-Net - 开源的少样本自定义唤醒词检测引擎

EfficientWord-Net热词检测少样本学习语音助手PythonGithub开源项目

EfficientWord-Net是一个开源的热词检测引擎，基于少样本学习技术，支持开发者添加自定义唤醒词。该项目采用Google的TFLite实现实时推理，架构灵感源自FaceNet的孪生网络。EfficientWord-Net使用Python开发，兼容3.6至3.9版本，提供自定义唤醒词生成和多唤醒词同时检测等功能，适用于家庭助手等应用场景。

gpt-assistant-android - 基于ChatGPT的Android语音助手随时随地快速获取AI回复

GPT AssistantAndroid语音助手OpenAI API无障碍服务Github开源项目

GPT Assistant是一款基于ChatGPT的Android语音助手应用。用户可通过音量键、状态栏快捷按钮或全局上下文菜单从任意界面唤起，进行语音交互。应用支持预设提问模板、联网搜索、图像识别、连续对话和Markdown渲染。提供多种语音识别接口，实现免费便捷的AI交互体验。

J.A.R.V.I.S - 开源智能语音助手实现多功能自动化

J.A.R.V.I.S语音助手人工智能Python项目开源软件Github开源项目

J.A.R.V.I.S是一个开源的智能语音助手项目，集成了多项实用功能。它支持动态人脸识别认证、邮件发送、新闻播报和待办事项管理等。该项目还能执行网站访问、音乐播放、天气查询和YouTube搜索等任务。J.A.R.V.I.S通过语音交互方式，为用户提供信息获取和设备控制服务，旨在提升日常生活和工作效率。该项目基于Python开发，整合了多个功能模块。除基本的语音交互外，J.A.R.V.I.S还实现了人脸识别、邮件处理、新闻API集成等高级功能。系统可执行网页浏览、音乐控制、天气报告等日常任务，并支持YouTube视频搜索和下载。J.A.R.V.I.S项目展示了如何利用开源技术构建复杂的智能助手系统。

DiVA-llama-3-v0-8b - 基于Llama的端到端双模态语音助手系统

语音识别Github开源项目语音助手模型人工智能模型Huggingface模型训练DiVA Llama 3

DiVA-llama-3-v0-8b是一个基于Llama-3.1-8B-Instruct的端到端语音助手系统，集成了语音和文本双模态输入功能。模型通过蒸馏损失训练方法开发，使用CommonVoice语料库训练，无需额外指令训练数据。该项目提供在线演示界面，并在Weights&Biases平台公开了完整训练日志。

Home-3B-v3-GGUF - 多语言智能家居控制与问答AI模型

StableLMHome Assistant智能家居语音助手HuggingfaceGithub开源项目模型人工智能

Home-3B-v3-GGUF是一款基于StableLM-3B-Zephyr模型优化的AI助手，专注于智能家居控制和基础问答功能。该模型支持多语言交互，能够执行设备控制、功能调用和基本逻辑任务。通过GGUF量化技术，它适用于树莓派等资源受限环境。在JSON功能调用准确性测试中，模型达到97.11%的高分。Home-3B-v3-GGUF为智能家居领域的非商业研究提供了实用的解决方案。

相关文章

Article Cover

Pipecat: 开源语音和多模态对话AI框架

Article Cover

JARVIS: 你的个人智能语音助手

Article Cover

打造自己的智能音箱:开源DIY智能音箱全攻略

Article Cover

Ollama Voice Mac: 本地离线语音助手的革新之作

Article Cover

Alan SDK for iOS: 构建智能语音交互体验

Article Cover

RealtimeSTT: 实时语音转文本的开源利器

Article Cover

PI-Assistant: 一个基于树莓派和人工智能的多功能家庭语音助手

Article Cover

Verbi: 革新语音助手技术的模块化平台

Article Cover

EfficientWord-Net: 开源一次性学习热词检测引擎

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号