#文本转语音

GPT-SoVITS - 少样本声音克隆模型

GPT-SoVITS-WebUI文本转语音跨语言支持WebUI工具模型训练Github开源项目热门

GPT-SoVITS-WebUI是一款功能强大的在线语音转换和文本转语音工具，支持跨语言转换与实时语音合成。项目集成了自动训练集分段、中文语音识别和文本标记等工具，能够帮助初学者轻松创建训练数据集和GPT/SoVITS模型。GPT-SoVITS支持零样本和少样本文本转语音，是音频处理领域的创新应用。

MeloTTS - 跨语言、多方言的高品质文本转语音库

MeloTTS多语言文本转语音MyShell.ai开源Github开源项目热门

MeloTTS是由MyShell.ai开发的多语言、多方言文本转语音库，支持包括英语（美国、英国、印度、澳大利亚）、西班牙语、法语、中文（结合英语）、日语和韩语等语种。该库特别适合于CPU实时推断，支持无安装使用，本地安装及自定义数据集训练。加入Discord社区交流，共同探讨与合作。

tortoise - 全新世代的多声音文本转语音技术，具备高度真实的语调和韵律

Tortoise TTS文本转语音GitHubHugging Face多声部能力Github开源项目热门

Tortoise TTS 是一款先进的文本转语音软件，专为提供多声音功能和高度真实的语调与韵律设计。该项目支持各种安装方式，包括pip和Docker，并提供了完善的本地安装指南。此外，Tortoise TTS 还在Hugging Face上提供在线演示，用户可体验其强大功能。它使用了自回归解码器和扩散解码器，大幅提升了语音生成的速度和质量。无论是个人用户还是开发者，都可通过详细的使用指南迅速上手和部署。

PaddleSpeech - 全面的开源语音处理工具集，涵盖语音识别、语音合成、说话人验证等多项功能

PaddleSpeech语音识别文本转语音声纹识别语音合成Github开源项目热门

PaddleSpeech是基于PaddlePaddle平台的开源语音处理工具集，覆盖自动语音识别、文本转语音合成、说话人确认及声音分类等多项功能，提供易于使用、高效和灵活的模型，支持各类语音相关任务。工具集包含全流程服务，支持流式识别与合成系统，为研究和工业应用提供强大支持。

VEED - 多语种AI语音生成器，立即在线转换文本为语音

AI音频音频生成AI工具VEEDAI语音生成器文本转语音AI视频编辑器多语言支持热门

VEED.IO为全球用户提供高效的文本到语音转换，支持多种语言和真实声音选项，适用于内容制作及广告业务，提升视频生产的效率与质量。

琅琅配音 - AI配音与文字转语音平台

热门音频生成AI工具琅琅配音文本转语音AI主播免费版本会员权益AI音频

琅琅配音是一款支持超过30种语言和众多情感风格的AI配音平台。提供免费和会员服务，适用于视频解说、有声书、广告等多种场景。界面简洁易用，功能强大，使制作专业品质的配音内容更为便捷。

Uberduck - 先进的AI语音合成与变声技术平台

热门AI音频音频生成AI工具Uberduck文本转语音AI人声语音克隆声音转换

Uberduck是一个支持多语言的AI语音合成服务平台，提供文本到语音转换、歌声生成和语音克隆技术。它帮助音乐制作人、内容创作者和营销人员通过AI技术，提升音频内容的创造与编辑能力。

Deepgram Voice AI - 提供用于语音转文本、文本转语音和语言理解的 API的AI语音平台

热门AI音频音频生成AI工具Deepgram语音AI文本转语音语音转文本AI模型

Deepgram Voice AI平台，采用最新Nova-2语音识别模型，提供实时、高效和低成本的语音转文字与文字转语音APIs，适用于医疗转录、客户服务与媒体字幕制作等多种场景。

PlayHT - AI语音生成，多语种支持与高度自然发音

热门AI音频音频生成AI工具AI语音生成文本转语音PlayHT多语言支持自定义发音

探索PlayHT—超逾900种自然AI语音和多语种支持，适用于教育、广播、视频等多场景。支持MP3、WAV格式下载，免费体验版现已推出，满足一切商业及创意需求。

Genny - AI语音生成与视频剪辑平台

热门AI音频音频生成AI工具LOVO AIAI声音生成器文本转语音在线视频编辑器AI配音

Genny是一款屡获殊荣的AI语音生成器和文本转语音软件，提供逾500种声音选项，支持100多种语言。该平台集成了在线视频编辑器，用户可轻松创建和编辑营销、培训和社交媒体视频内容。实现高质量语音合成及视频生产，提高内容创作的效率与互动性。

Typecast - 有感情的AI语音生成技术，快速制作逼真语音

AI音频音频生成AI工具TypecastAI语音生成器文本转语音多语言配音情感控制热门

Typecast提供在线AI语音生成服务，可将文本转化为逼真语音。其提供超过130种声音选项，并支持实时语音自定义和视频配音，适合有声书、视频游戏和市场营销等多种应用场景。此平台使用先进机器学习技术，在语音合成上实现了高度自然性和可控性。Typecast还能支持多语种视频内容制作，助力创作者制作专业的音频和视觉作品。

Voicemaker - 在线文本到语音转换工具

热门AI音频音频生成AI工具Voicemaker®文本转语音AI语音在线应用语音合成

Voicemaker® 是一款使用AI技术优化的先进文本到语音转换工具，支持多种语言和声音选项，确保自然流畅的听觉体验。用户可以自定义语速、音调和语音效果，广泛应用于有声内容制作与教育领域。该平台提供多样的付费计划，并受到全球多个知名品牌的信赖和使用。

silero-models - 提供预训练的企业级语音识别和合成模型

Silero Models语音识别文本转语音PyTorchONNXGithub开源项目

silero-models展示高质量预训练语音识别与合成模型，提供简化的企业级语音技术解决方案，性能匹敌谷歌STT。模型即用、支持多语言、语音合成自然，将企业和开发者的部署流程简化至极致。

flutter_tts - 一个 flutter 文本转语音插件

flutter_tts文本转语音插件安卓iOSGithub开源项目

flutter_tts 是一个跨平台文本转语音插件，兼容Android、iOS、Web、Windows和macOS。它支持多种功能，包括语言选择、语速、音调与音量调节，满足广泛的应用场景和开发需求。

aspeak - 开源文本转语音客户端，支持Azure TTS API

aspeakAzure TTS API文本转语音GitHub安装Github开源项目

aspeak是一个开源的文本到语音转换工具，使用Rust编写，兼容Azure TTS API，支持RESTful和WebSocket API模式。适用于多个平台的安装，提供免费和付费使用方案。

nix-tts - 端到端文本转语音解决方案

Nix-TTS文本转语音知识蒸馏轻量级非自回归Github开源项目

Nix-TTS通过模块化知识蒸馏技术实现了高效轻量的端到端文本转语音合成，显著降低模型尺寸至5.23M参数，加速了处理速度，同时保持了良好的声音自然性。

deepvoice3_pytorch - 基于卷积网络的文本到语音合成技术

DeepVoice3文本转语音PyTorch多说话者模型预训练模型Github开源项目

DeepVoice3_pytorch是基于PyTorch的文本到语音深度学习平台，支持多语种和多数据集，包括英语、日语和韩语，适合多个说话者或单个说话者。项目提供预训练模型、音频样本、在线演示及详尽的训练指南，旨在简化用户的使用过程，并能灵活定制个性化的语音合成应用。

vits-simple-api - 多功能语音合成和转换API

vits-simple-api人工智能文本转语音GPU加速多模型支持Github开源项目

vits-simple-api运用先进的VITS技术，支持文本到语音的转换，包括情感和声音风格的自定义，适用于众多场景。此外，项目还支持中文、日语等多语言，提供实时和批量处理模式，以及Docker和虚拟环境部署选项，确保安装和使用的便捷性。

KAN-TTS - TTS语音合成训练框架

KAN-TTS模型语言支持文本转语音ModelScopeGithub开源项目

KAN-TTS能够提供从零开始训练个性化文本到语音模型的能力。支持包括sam-bert和hifi-GAN在内的多种模型，并持续进行模型更新。支持多种语言，包括普通话、英语等。详尽的培训教程和在线演示可在官方网站查阅。如有疑问，欢迎联系我们。

WhisperSpeech - 多语言支持的开源文本转语音系统，功能强大并易于定制

WhisperSpeech文本转语音多语言支持开源模型语音克隆Github开源项目

WhisperSpeech是基于开源Whisper框架开发的文本至语音系统，提供了商业级安全的语音合成解决方案。当前支持英语LibreLight数据集，并计划拓展到多语言支持。用户可通过在线Colab平台体验其高效的语音合成和声音克隆功能。

marytts - 多语种开源文本转语音平台

MaryTTS文本转语音开源Java多语言支持Github开源项目

MaryTTS，开源多语种文本转语音系统，基于Java实现，兼容各主要平台。支持广泛的语言和方言，易于在Java项目中集成和自定义。提供全面的服务器运维和应用开发文档，是开发者及IT专业人士的理想选择。

android-speech - 简化的Android语音识别和文字转语音功能

Android Speech语音识别文本转语音Speech.initGradleGithub开源项目

android-speech库，当前版本x.y.z，为Android开发者提供便捷、高效的语音识别与文字转语音解决方案。该库支持简单的初始化设置和API调用，提供多语言和多种声音选项，配备有自定义进度动画。

PortaSpeech - 便携且高质量的PyTorch文本到语音生成工具

PortaSpeech文本转语音PyTorch实现音频样本模型大小Github开源项目

基于PyTorch的PortaSpeech项目，提供一种高质量且便携的文本到语音转换实现方案。这个项目支持单声道和多声道TTS，包含快速启动指南、多种样本、预训练模型，适合研究和实际开发。它还为数据预处理和模型训练提供详细指南，帮助用户轻松使用并优化其TTS系统。

gTTS - 为Google翻译文本到语音功能提供简便接口的Python 库和 CLI 工具

gTTS文本转语音Python库谷歌APImp3输出Github开源项目

gTTS，一款Python库和命令行工具，能通过Google翻译API进行文本到语音转换，并输出为mp3。特色包括自定义语句分割和文本预处理，以支持长文本的准确语调处理。适用于所有需要语音合成功能的开发者。更多信息，参见官方文档。

epub2tts - 将 epub 或文本文件转换为有声读物

epub2tts文本转语音Coqui AI TTS免费开源音频书Github开源项目

epub2tts是一个开源Python应用，支持多引擎文本到语音转换，包括Coqui AI TTS、OpenAI和MS Edge，提供自动章节检测、封面嵌入等功能，支持断点续传和语音自定义选项。

Talkify - 多语言支持的高品质文字转语音库

Talkify文本转语音多语言支持API密钥高品质声音Github开源项目

Talkify为多语言环境提供高品质的文字转语音服务。该库支持范围广泛的语言，包括中文和英文，便于开发者通过几个简单步骤集成至任何网站。具有全面的API支持和控制界面，每月初次1000次请求免费。立即注册以体验先进的语音合成服务。

espnet - 端到端语音处理工具包，涵盖语音识别及转换

ESPnet语音识别文本转语音语音处理深度学习Github开源项目

ESPnet是一个端到端语音处理模块，封装了多个领域的语音处理任务，如语音识别、文本到语音、语音翻译、语音增强和说话人分割等。该平台基于Pytorch开发，采用符合Kaldi风格的数据处理方法，提供针对各类语音处理实验的完整解决方案。ESPnet支持多语言处理，并能够调整自身以适应不同的语言和环境。

PL-BERT - 通过PL-BERT实现更自然的语音合成

PL-BERT文本转语音自然语言模型语音合成图标预测Github开源项目

PL-BERT，一种创新的音素级预训练语言模型，通过预测掩码音素对应的字形，有效提升了多语种文本到语音转换的自然度和准确性。经科学评估，其合成语音质量在面对非模型文本时，较传统方法有明显提高，推动了语音合成技术的进步。

dc_tts - 基于深度卷积网络的高效文本到语音转换模型

DC-TTSTensorFlow文本转语音训练模型语音样本Github开源项目

dc_tts，一个基于TensorFlow的文本到语音转换模型，使用深度卷积网络和引导注意力机制进行设计。项目不仅还原了相关学术论文，还对不同声音数据进行了深入研究，支持多种语言和数据集，提供完善的训练及预处理教程以及预训练模型，适用于学术研究和实际应用场景。

edge-tts - 模块精确支持多语言文本转语音功能，且具备声音自定义调整。

edge-tts文本转语音Microsoft EdgePython模块命令行Github开源项目

edge-tts作为一个基于Python的模块，利用Microsoft Edge的在线服务实现文本到语音的转换。支持丰富的语音和语言选项，并允许用户调整语速、音量和音调，适合于各类文本至语音的转换需求。此模块有效简化语音合成流程，提升开发效率。

vits2_pytorch - 单阶段文本到语音转换的效率与质量提升

VITS2文本转语音单阶段模型对抗学习架构设计Github开源项目

VITS2_pytorch是一款先进的单阶段文本到语音转换模型，采用对抗学习和架构设计改进前代产品。这一最新的非官方实现版本，旨在通过增强模型结构和训练机制，有效提升语音自然度和特征相似性，同时显著降低对音素转换的依赖，从而提高训练和推断的效率。该项目还为专业人士提供了预训练模型和多种语言的样本音频，支持开箱即用的转换学习。

VoiceFlow-TTS - 结合最新流匹配算法的文本转语音技术

VoiceFlow文本转语音Kaldi模型训练数据准备Github开源项目

VoiceFlow-TTS项目采用先进的矫正流匹配技术，提升了文本到语音转换的效率和自然度。此项目详细介绍了设置环境、准备数据、训练模型以及推理过程，支持多GPU并发处理，兼容多种数据集。

voicesmith - 实现个性化语音合成的强大工具

VoiceSmith文本转语音多说话者模型DelightfulTTSUnivNetGithub开源项目

VoiceSmith是一个允许用户训练和应用单语者及多语者模型的平台。该项目基于改良的DelightfulTTS和UnivNet模型，能在个人数据集上进行微调，带来高度自然的语音输出。VoiceSmith还包括数据预处理工具，如自动文本规范化功能，适合在Windows或Linux系统上使用，推荐配置NVIDIA GPU以优化训练效率。

glow-tts - 通过单调对齐搜索进行文本转语音的生成流

Glow-TTS文本转语音并行合成HiFi-GAN模型训练Github开源项目

Glow-TTS，一款创新的文本到语音转换模型，独立完成文本与语音的单调对齐搜索，无需外部辅助。此模型不仅大幅提升合成速度，还支持多样性与可控性，并可适应多说话人环境。更新项包括采用新技术降低噪声并优化发音，使其在速度和音质上优于传统模型。

Multi-Tacotron-Voice-Cloning - 实现俄语和英语语音克隆的多功能深度学习系统

Multi-Tacotron Voice Cloning语音合成深度学习多语种文本转语音Github开源项目

Multi-Tacotron-Voice-Cloning 是基于Real-Time-Voice-Cloning开发的，支持俄语与英语的多语言语音克隆系统。该系统能够利用几秒钟的音频样本，生成声音的数值模型并应用于文本到语音的转换。提供预训练模型和广泛的数据集，同时支持在线Colab演示，适合需要进行英语或俄语语音合成的用户。

ChatTTS - 用于日常对话的文生语音模型

ChatTTS文本转语音对话系统开源多语言支持Github开源项目热门

ChatTTS是为对话场景特别设计的文本到语音模型，支持多种语言和多发言者交互。该模型优化对话基础任务，支持细粒度的韵律特征控制，如笑声、停顿等。通过使用预训练模型，ChatTTS在自然语言合成和表达能力方面均有突破性进展，适用于教育和研究目的。

相关文章

Article Cover

Deepgram Aura:最强的文本转语音模型，人工智能客服时代真的来了

2024年08月03日

Article Cover

GPT-SoVITS: 革命性的少样本语音克隆与文本转语音技术

Article Cover

MeloTTS: 高质量多语言文本转语音技术的新突破

Article Cover

Tortoise TTS: 一个注重质量的多声音文本转语音系统

Article Cover

PaddleSpeech:百度飞桨开源的功能强大的语音处理工具包

Article Cover

ESPnet:端到端语音处理工具包

Article Cover

Silero Models: 简单易用的高质量语音识别和语音合成模型

Article Cover

Edge-TTS: 使用Microsoft Edge的在线文本转语音服务

Article Cover

微软最新TTS，连非语言发声都能克隆的TTS技术！高度情绪化的语音太逼真

2024年08月03日

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号