make-a-smart-speaker

制作智能扬声器的资源集合

本文提供如何从头开始制作智能音箱的详细指南和优质资源。文章覆盖音频处理、关键词检测、语言理解至文本转语音的全面步骤，介绍开源项目如Mycroft、Snips以及Amazon Alexa和Google Assistant等硬件SDK。提供硬件套件链接，帮助开发者和技术爱好者构建并优化智能音箱项目。

访问官网

Github

文档

介绍相关项目

awesome-diarization - 说话者分离和语音分割的数据集

FunASRGithubMiniVoxSIDEKITSpeaker DiarizationSpeechBrain开源项目

glados-tts - 开源Portal风格语音合成引擎

GLaDOSGithub安装指南开源项目模型训练神经网络语音合成

GLaDOS TTS是一个开源的文本转语音引擎，利用神经网络技术生成Portal游戏风格的GLaDOS语音。该项目支持独立运行和远程API调用，提供了详细的安装说明和训练方法。GLaDOS TTS包含多说话人模型训练和模型优化功能，适用于各种设备和应用场景。开发者可以通过此项目轻松将Portal风格的语音集成到自己的应用中。

TTS-Cube - 基于神经网络的端到端语音合成系统

GithubTTS-Cube开源项目神经网络端到端系统语音合成音频生成

TTS-Cube是一个基于神经网络的端到端语音合成系统，提供训练和部署TTS模型的完整流程。系统无需预对齐数据，仅通过字符或音素序列即可训练生成音频。它包含一个编码器模块，将输入序列转换为梅尔对数谱图，以及一个基于RNN的声码器模块。TTS-Cube采用轻量级架构和引导注意力技术，实现快速收敛。项目提供交互式演示、安装指南和训练实例。

google-tts - Node.js环境下的文本转语音解决方案

GithubText-To-Speechgoogle-tts-apinode.js开源项目语音合成音频转换

google-tts-api 提供Node.js环境下全面的文本转语音支持，包括多语言选项、语速调整等功能，支持输出URL或Base64编码，适合多种交互场景。

SenseVoice - 高效、多语种语音识别与情绪识别技术平台

GithubSenseVoice多语言语音识别开源项目情绪识别推理效率热门音频事件检测

SenseVoice是一款支持多语言的语音解析模型，整合了自动语音识别、语种识别、情绪识别及音频事件检测功能。该项目采用非自回归端到端框架，可在超过50种语言上提供精准的语音识别服务，大幅降低了推理延迟，提供方便的微调脚本和多语种细粒度情绪分析，支持多种客户端语言和服务部署，适用于多种商业场景。

PaddleSpeech - 全面的开源语音处理工具集，涵盖语音识别、语音合成、说话人验证等多项功能

GithubPaddleSpeech声纹识别开源项目文本转语音热门语音合成语音识别

PaddleSpeech是基于PaddlePaddle平台的开源语音处理工具集，覆盖自动语音识别、文本转语音合成、说话人确认及声音分类等多项功能，提供易于使用、高效和灵活的模型，支持各类语音相关任务。工具集包含全流程服务，支持流式识别与合成系统，为研究和工业应用提供强大支持。

AudioGPT - 多功能音频生成与理解平台，支持语音、音乐、音效及虚拟人对话

AudioGPTGithub开源项目语音增强语音识别音乐生成音频合成

AudioGPT 是一个多功能音频生成与理解平台，具备语音合成、语音识别、语音分离、风格迁移、声音检测、声音提取、文本到音频转换等功能，还支持音乐生成与虚拟人对话。集成了 FastSpeech、whisper、GeneFace 等多个领先的基础模型，AudioGPT 为开发者提供强大的开源工具和预训练模型，支持多种音频相关任务，不断扩展其功能和应用场景。此平台适合音频处理、自然语言处理及多模态研究的需求。

ASTRA.ai - 改进语音互动和自定义功能的高效代理方案

AstraDockerGithubGraph DesignerTENVoice agent开源项目

ASTRA.ai 由 TEN 驱动，提供无缝的对话体验。通过集成 Agora 和 Azure API，实现语音到文字及文字到语音的转换。使用 Docker 和 Node.js，本地构建和配置变得简单。开发者能够创建和自定义语音代理，零编码知识的用户也可通过 TEN 图形设计工具设计个性化代理应用。加入社区，分享应用和反馈，推动平台进步。更多详情请参见文档和贡献指南。

build-your-ai-coding-assistant - 构建AI编码助手全流程指南助力开发效率提升

AI辅助编码GithubIDE插件上下文工程代码补全开源项目生成式AI

该项目提供构建AI辅助编码助手的全面指南，包括IDE插件开发、模型评估微调和数据工程等核心内容。通过整合开源工具和技术，项目旨在帮助开发者创建高效AI编码助手。内容涵盖多种AI辅助场景实现方法，探讨上下文工程对AI性能的影响，为开发者提供实用经验。

easy-speech - 跨浏览器语音合成的简单解决方案

Easy SpeechGithubJavaScriptWeb Speech API开源项目语音合成跨浏览器

Easy Speech是一款跨浏览器语音合成库，无需额外依赖。它提供统一API接口和异步操作支持，具备全局及特定语音实例的事件钩子。该项目能自动检测加载可用语音，并解决了多个浏览器特有问题。Easy Speech还包含内部日志功能，支持多种构建目标，并提供在线演示测试浏览器兼容性。它简化了Web Speech API在主流浏览器上的语音合成实现。

相关项目

推荐项目

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能，包括文生视频、动态画面和形象生成等，帮助用户快速上手，创造专业级内容。

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台，用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品，帮助用户探索创意灵感。

讯飞文书

讯飞文书依托讯飞星火大模型，为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能，满足事务性工作的高频需求，帮助撰稿人节省精力，提高效率，优化工作与生活。

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com