#文本到语音

EmotiVoice是一款功能强大的开源文本转语音（TTS）引擎，支持中英文，并配备超过2000种声音选项。其最显著的特点是情感合成功能，用户可以创建表达各种情绪的语音，如快乐、激动、悲伤和愤怒等。EmotiVoice提供易于使用的Web界面和脚本接口，适用于批量生成结果，同时还支持语音速度调整，提供Mac应用程序和HTTP API，增设免费调用次数。

ElevenLabs - AI语音生成与文本转语音平台

热门AI音频音频生成AI工具ElevenLabs人工智能配音文本到语音语音克隆

ElevenLabs 提供先进的文本到语音和AI语音生成服务，支持多种语言和声音。真实且响应迅速的人声模拟，可广泛应用于内容创作、客户互动等领域，突破语言壁垒，优化数字交互。

StyleTTS - 多样化的文本到语音合成

StyleTTS文本到语音自然语言处理情感语调语音合成Github开源项目

StyleTTS是一款高效的文本到语音合成工具，能够从参考语音中学习并再现其语调与情感，同时确保语音自然和说话者之间的高度相似度。

tacotron - 端到端文本转语音合成模型实现

Tacotron文本到语音TensorFlow训练数据集语音合成Github开源项目

基于TensorFlow的Tacotron模型，是一个全面的端对端文本转语音合成系统。该模型涵盖多种数据集，运用现代深度学习与注意力机制优化文本到语音的高质量转换，适用于学术研究与商业应用。

vits_chinese - 基于BERT和VITS技术的文本到语音合成系统

TTSBERTVITS文本到语音自然语言处理Github开源项目

vits_chinese项目引入了BERT和VITS技术，通过隐藏的韵律嵌入和自然语言特性，显著提高了文本到语音合成的音质和自然度。此项目不只适于高质量音频生成，也提供模块化蒸馏加速和在线演示，便利学习和开发人员的应用。

MsEdgeTTS - 微软Edge朗读API的高效文字转语音模块

MsEdgeTTS文本到语音Microsoft EdgeAzure Speech ServiceSSMLGithub开源项目

MsEdgeTTS是一个基于Azure语音服务的简易模块，通过Microsoft Edge的朗读API实现文字转语音，支持speak、voice、prosody等SSML元素。项目提供多种音频输出格式，并通过详细的API文档和示例，便于用户有效集成及使用。

StyleSpeech - 多说话人自适应文本转语音生成

Meta-StyleSpeech文本到语音自适应预训练模型音质Github开源项目

Meta-StyleSpeech项目结合最新的多说话者适应性文本到语音合成技术，通过样本少量的语音输入即可生成高质量合成语音。该项目运用风格自适应层归一化技术，高效适配不同说话者的声音特征。提供预训练模型和在线演示供实际应用测试。

DiffGAN-TTS - 采用去噪扩散生成对抗网络技术的文本到语音转换技术

DiffGAN-TTS文本到语音PyTorch多说话者TTS训练模型Github开源项目

DiffGAN-TTS采用去噪扩散生成对抗网络技术，通过激活浅层扩散机制，提供了一种高效且高保真的文本到语音转换方案。该技术支持多种发音特征和语种，实现了保持语音自然度的同时，进行灵活的语音控制，包括音调和语速的调整。此技术适用于多语言和多说话人场景，为深度学习语音合成领域提供了新的可能性。

vits2 - 单阶段文本转语音系统的效率与质量提升

VITS2文本到语音单阶段模型自然语言处理SK TelecomGithub开源项目

VITS2项目融合了对抗学习与结构设计，在单阶段文本转语音技术上实现了显著的质量与效率提升。此模型通过结构和训练机制的优化，增强了语音的自然感和多讲者语音特征的匹配度，并提高了训练及推理速度。VITS2的创新技术显著降低了对音素转换的依赖，支持了完整的端到端处理。

voice-builder - 开源文本转语音（TTS）工具

Voice Builder文本到语音Google Cloud Platform开源项目合成声音Github

Voice Builder是一个开源的文本到语音转换工具，旨在通过简化用户界面和增强工具灵活性，让用户轻松进行语音合成实验。它使得音声合成更加便捷，特别是支持低资源语言，有效促进技术研究与跨领域协作。

GenerSpeech - 文本转语音模型，可实现 OOD 自定义语音的高保真零样本样式传输

GenerSpeech文本到语音风格转换零样本学习多GPU支持Github开源项目

GenerSpeech: PyTorch实现的NeurIPS 2022文本到语音模型，专注于无监督出域场景下的高保真样式转换。提供多层级样式转换、优化的模型泛化功能，并支持多GPU环境。完整指南及音频样例可在线获取，助您快速实施和部署。

megatts2 - Megatts2 的非官方实现，多语种语音合成训练

Megatts2文本到语音Pytorch-lightning数据集准备VQ-GANGithub开源项目

megatts2为Megatts2的非官方实现，支持中英文混合的深度学习语音合成训练。该项目涵盖数据处理、模型训练及语音推理，使用Pytorch-lightning框架优化训练流程，目标训练1000小时语音数据。

AIUI - AI语音交互平台，兼容桌面和移动浏览器

AIUI语音接口GPT-4GPT-3.5文本到语音Github开源项目

AIUI平台提供与AI模型的无缝双向语音通信，现支持GPT-4和GPT-3.5，兼容桌面和移动浏览器，未来将支持开放模型。在浏览器中打开应用即可开始对话，AIUI会处理语音输入并提供语音回应，实现自然连续的交互。它提供本地运行指南、环境变量配置及一键部署选项，方便快速上手。

Rodel.Agent - 集成多种AI功能的Windows桌面应用程序

Rodel AgentWindowsAI服务桌面应用文本到语音Github开源项目

Rodel Agent 是一款Windows桌面应用程序，涵盖聊天、图像生成、文本转语音和机器翻译功能，支持主流AI服务，提供卓越的桌面AI体验。开发者可使用Visual Studio 2022，依赖.NET 8和Windows App SDK 1.5。只需克隆仓库并初始化子模块即可构建项目，包含桌面UI和控制台模块，用户可自由配置服务。

Amphion - Amphion开源工具集，支持音频、音乐、语音生成及多任务评估

Amphion语音生成音乐生成文本到语音声码器Github开源项目

Amphion是一个开源的音频、音乐和语音生成工具集，旨在支持可重复的研究并帮助研究人员和工程师入门。提供TTS、SVS、VC、SVC、TTA等生成任务，集成高级语音编码器和评估指标，如F0建模、能量建模、语音相似度测评。功能包括模型可视化、数据集建设及文本到音频/音乐的实现，推动音频生成技术应用。

bark.cpp - 改进多语言文本生成的实时音频技术

bark.cpp实时多语言文本到语音模型支持Github开源项目

bark.cpp 是一个用纯 C/C++ 编写的开源项目，实现了 SunoAI 的 bark 模型，用于提供高质量的实时多语言文本到语音转换。该项目无需外部依赖，支持 AVX、AVX2 和 AVX512 指令集，兼容 CPU 和 GPU，并提供 F16/F32 混合精度和多种量化选项。用户可以轻松进行构建、下载模型和转换格式。社区成员可以通过报告问题、提出新功能或提交 pull request 来贡献代码。

hf-seamless-m4t-medium - 多语言翻译与语音识别的统一模型

Hugging FaceGithub开源项目SeamlessM4T模型多语言翻译Huggingface文本到语音语音识别

SeamlessM4T是一款多语言模型，支持101种语言的语音输入、196种语言的文本处理和35种语言的语音输出。它能进行语音到语音、语音到文本、文本到语音及文本到文本的翻译。最新的SeamlessM4T v2在翻译质量和生成速度上均有改善，为需要高效语音处理和文本翻译的场景提供了解决方案。

moshika-pytorch-bf16 - 实时全双工语音对话的AI模型革新

Github模型开源项目语音生成文本到语音对话模型Huggingface实时交互Moshi

Moshi是基于bf16的Pytorch实现的实时全双工语音对话模型，支持流式语音识别与文本到语音转换，拥有低延迟，适合自然语音交互场景。

Tacotron: 革命性的端到端语音合成模型

2024年08月30日

VITS中文语音合成系统: 基于BERT和VITS的高质量TTS实践

2024年08月30日

Voice Builder: 开源文本转语音声音构建工具

2024年08月30日

VITS2: 改进单阶段文本转语音的质量和效率

2024年08月30日

StyleTTS 2: 突破性的人类级别文本转语音技术

2024年08月30日

DiffGAN-TTS: 高保真度和高效率的文本转语音新技术

2024年08月30日

GenerSpeech: 突破性的零样本风格迁移文本转语音模型

2024年08月30日

MsEdgeTTS: 简单而强大的微软 Edge 语音合成模块

2024年08月30日

EmotiVoice: 革新语音合成的多音色情感控制引擎

2024年08月30日

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com