#文本转语音

GPT-SoVITS - 少样本声音克隆模型
GPT-SoVITS-WebUI文本转语音跨语言支持WebUI工具模型训练Github开源项目热门
GPT-SoVITS-WebUI是一款功能强大的在线语音转换和文本转语音工具,支持跨语言转换与实时语音合成。项目集成了自动训练集分段、中文语音识别和文本标记等工具,能够帮助初学者轻松创建训练数据集和GPT/SoVITS模型。GPT-SoVITS支持零样本和少样本文本转语音,是音频处理领域的创新应用。
MeloTTS - 跨语言、多方言的高品质文本转语音库
MeloTTS多语言文本转语音MyShell.ai开源Github开源项目热门
MeloTTS是由MyShell.ai开发的多语言、多方言文本转语音库,支持包括英语(美国、英国、印度、澳大利亚)、西班牙语、法语、中文(结合英语)、日语和韩语等语种。该库特别适合于CPU实时推断,支持无安装使用,本地安装及自定义数据集训练。加入Discord社区交流,共同探讨与合作。
tortoise - 全新世代的多声音文本转语音技术,具备高度真实的语调和韵律
Tortoise TTS文本转语音GitHubHugging Face多声部能力Github开源项目热门
Tortoise TTS 是一款先进的文本转语音软件,专为提供多声音功能和高度真实的语调与韵律设计。该项目支持各种安装方式,包括pip和Docker,并提供了完善的本地安装指南。此外,Tortoise TTS 还在Hugging Face上提供在线演示,用户可体验其强大功能。它使用了自回归解码器和扩散解码器,大幅提升了语音生成的速度和质量。无论是个人用户还是开发者,都可通过详细的使用指南迅速上手和部署。
PaddleSpeech - 全面的开源语音处理工具集,涵盖语音识别、语音合成、说话人验证等多项功能
PaddleSpeech语音识别文本转语音声纹识别语音合成Github开源项目热门
PaddleSpeech是基于PaddlePaddle平台的开源语音处理工具集,覆盖自动语音识别、文本转语音合成、说话人确认及声音分类等多项功能,提供易于使用、高效和灵活的模型,支持各类语音相关任务。工具集包含全流程服务,支持流式识别与合成系统,为研究和工业应用提供强大支持。
VEED - 多语种AI语音生成器,立即在线转换文本为语音
AI音频音频生成AI工具VEEDAI语音生成器文本转语音AI视频编辑器多语言支持热门
VEED.IO为全球用户提供高效的文本到语音转换,支持多种语言和真实声音选项,适用于内容制作及广告业务,提升视频生产的效率与质量。
琅琅配音 - AI配音与文字转语音平台
热门音频生成AI工具琅琅配音文本转语音AI主播免费版本会员权益AI音频
琅琅配音是一款支持超过30种语言和众多情感风格的AI配音平台。提供免费和会员服务,适用于视频解说、有声书、广告等多种场景。界面简洁易用,功能强大,使制作专业品质的配音内容更为便捷。
Uberduck - 先进的AI语音合成与变声技术平台
热门AI音频音频生成AI工具Uberduck文本转语音AI人声语音克隆声音转换
Uberduck是一个支持多语言的AI语音合成服务平台,提供文本到语音转换、歌声生成和语音克隆技术。它帮助音乐制作人、内容创作者和营销人员通过AI技术,提升音频内容的创造与编辑能力。
Deepgram Voice AI - 提供用于语音转文本、文本转语音和语言理解的 API的AI语音平台
热门AI音频音频生成AI工具Deepgram语音AI文本转语音语音转文本AI模型
Deepgram Voice AI平台,采用最新Nova-2语音识别模型,提供实时、高效和低成本的语音转文字与文字转语音APIs,适用于医疗转录、客户服务与媒体字幕制作等多种场景。
PlayHT - AI语音生成,多语种支持与高度自然发音
热门AI音频音频生成AI工具AI语音生成文本转语音PlayHT多语言支持自定义发音
探索PlayHT—超逾900种自然AI语音和多语种支持,适用于教育、广播、视频等多场景。支持MP3、WAV格式下载,免费体验版现已推出,满足一切商业及创意需求。
Genny - AI语音生成与视频剪辑平台
热门AI音频音频生成AI工具LOVO AIAI声音生成器文本转语音在线视频编辑器AI配音
Genny是一款屡获殊荣的AI语音生成器和文本转语音软件,提供逾500种声音选项,支持100多种语言。该平台集成了在线视频编辑器,用户可轻松创建和编辑营销、培训和社交媒体视频内容。实现高质量语音合成及视频生产,提高内容创作的效率与互动性。
Typecast - 有感情的AI语音生成技术,快速制作逼真语音
AI音频音频生成AI工具TypecastAI语音生成器文本转语音多语言配音情感控制热门
Typecast提供在线AI语音生成服务,可将文本转化为逼真语音。其提供超过130种声音选项,并支持实时语音自定义和视频配音,适合有声书、视频游戏和市场营销等多种应用场景。此平台使用先进机器学习技术,在语音合成上实现了高度自然性和可控性。Typecast还能支持多语种视频内容制作,助力创作者制作专业的音频和视觉作品。
Voicemaker - 在线文本到语音转换工具
热门AI音频音频生成AI工具Voicemaker®文本转语音AI语音在线应用语音合成
Voicemaker® 是一款使用AI技术优化的先进文本到语音转换工具,支持多种语言和声音选项,确保自然流畅的听觉体验。用户可以自定义语速、音调和语音效果,广泛应用于有声内容制作与教育领域。该平台提供多样的付费计划,并受到全球多个知名品牌的信赖和使用。
silero-models - 提供预训练的企业级语音识别和合成模型
Silero Models语音识别文本转语音PyTorchONNXGithub开源项目
silero-models展示高质量预训练语音识别与合成模型,提供简化的企业级语音技术解决方案,性能匹敌谷歌STT。模型即用、支持多语言、语音合成自然,将企业和开发者的部署流程简化至极致。
flutter_tts - 一个 flutter 文本转语音插件
flutter_tts文本转语音插件安卓iOSGithub开源项目
flutter_tts 是一个跨平台文本转语音插件,兼容Android、iOS、Web、Windows和macOS。它支持多种功能,包括语言选择、语速、音调与音量调节,满足广泛的应用场景和开发需求。
aspeak - 开源文本转语音客户端,支持Azure TTS API
aspeakAzure TTS API文本转语音GitHub安装Github开源项目
aspeak是一个开源的文本到语音转换工具,使用Rust编写,兼容Azure TTS API,支持RESTful和WebSocket API模式。适用于多个平台的安装,提供免费和付费使用方案。
nix-tts - 端到端文本转语音解决方案
Nix-TTS文本转语音知识蒸馏轻量级非自回归Github开源项目
Nix-TTS通过模块化知识蒸馏技术实现了高效轻量的端到端文本转语音合成,显著降低模型尺寸至5.23M参数,加速了处理速度,同时保持了良好的声音自然性。
deepvoice3_pytorch - 基于卷积网络的文本到语音合成技术
DeepVoice3文本转语音PyTorch多说话者模型预训练模型Github开源项目
DeepVoice3_pytorch是基于PyTorch的文本到语音深度学习平台,支持多语种和多数据集,包括英语、日语和韩语,适合多个说话者或单个说话者。项目提供预训练模型、音频样本、在线演示及详尽的训练指南,旨在简化用户的使用过程,并能灵活定制个性化的语音合成应用。
vits-simple-api - 多功能语音合成和转换API
vits-simple-api人工智能文本转语音GPU加速多模型支持Github开源项目
vits-simple-api运用先进的VITS技术,支持文本到语音的转换,包括情感和声音风格的自定义,适用于众多场景。此外,项目还支持中文、日语等多语言,提供实时和批量处理模式,以及Docker和虚拟环境部署选项,确保安装和使用的便捷性。
KAN-TTS - TTS语音合成训练框架
KAN-TTS模型语言支持文本转语音ModelScopeGithub开源项目
KAN-TTS能够提供从零开始训练个性化文本到语音模型的能力。支持包括sam-bert和hifi-GAN在内的多种模型,并持续进行模型更新。支持多种语言,包括普通话、英语等。详尽的培训教程和在线演示可在官方网站查阅。如有疑问,欢迎联系我们。
WhisperSpeech - 多语言支持的开源文本转语音系统,功能强大并易于定制
WhisperSpeech文本转语音多语言支持开源模型语音克隆Github开源项目
WhisperSpeech是基于开源Whisper框架开发的文本至语音系统,提供了商业级安全的语音合成解决方案。当前支持英语LibreLight数据集,并计划拓展到多语言支持。用户可通过在线Colab平台体验其高效的语音合成和声音克隆功能。
marytts - 多语种开源文本转语音平台
MaryTTS文本转语音开源Java多语言支持Github开源项目
MaryTTS,开源多语种文本转语音系统,基于Java实现,兼容各主要平台。支持广泛的语言和方言,易于在Java项目中集成和自定义。提供全面的服务器运维和应用开发文档,是开发者及IT专业人士的理想选择。
android-speech - 简化的Android语音识别和文字转语音功能
Android Speech语音识别文本转语音Speech.initGradleGithub开源项目
android-speech库,当前版本x.y.z,为Android开发者提供便捷、高效的语音识别与文字转语音解决方案。该库支持简单的初始化设置和API调用,提供多语言和多种声音选项,配备有自定义进度动画。
PortaSpeech - 便携且高质量的PyTorch文本到语音生成工具
PortaSpeech文本转语音PyTorch实现音频样本模型大小Github开源项目
基于PyTorch的PortaSpeech项目,提供一种高质量且便携的文本到语音转换实现方案。这个项目支持单声道和多声道TTS,包含快速启动指南、多种样本、预训练模型,适合研究和实际开发。它还为数据预处理和模型训练提供详细指南,帮助用户轻松使用并优化其TTS系统。
gTTS - 为Google翻译文本到语音功能提供简便接口的Python 库和 CLI 工具
gTTS文本转语音Python库谷歌APImp3输出Github开源项目
gTTS,一款Python库和命令行工具,能通过Google翻译API进行文本到语音转换,并输出为mp3。特色包括自定义语句分割和文本预处理,以支持长文本的准确语调处理。适用于所有需要语音合成功能的开发者。更多信息,参见官方文档。
epub2tts - 将 epub 或文本文件转换为有声读物
epub2tts文本转语音Coqui AI TTS免费开源音频书Github开源项目
epub2tts是一个开源Python应用,支持多引擎文本到语音转换,包括Coqui AI TTS、OpenAI和MS Edge,提供自动章节检测、封面嵌入等功能,支持断点续传和语音自定义选项。
Talkify - 多语言支持的高品质文字转语音库
Talkify文本转语音多语言支持API密钥高品质声音Github开源项目
Talkify为多语言环境提供高品质的文字转语音服务。该库支持范围广泛的语言,包括中文和英文,便于开发者通过几个简单步骤集成至任何网站。具有全面的API支持和控制界面,每月初次1000次请求免费。立即注册以体验先进的语音合成服务。
espnet - 端到端语音处理工具包,涵盖语音识别及转换
ESPnet语音识别文本转语音语音处理深度学习Github开源项目
ESPnet是一个端到端语音处理模块,封装了多个领域的语音处理任务,如语音识别、文本到语音、语音翻译、语音增强和说话人分割等。该平台基于Pytorch开发,采用符合Kaldi风格的数据处理方法,提供针对各类语音处理实验的完整解决方案。ESPnet支持多语言处理,并能够调整自身以适应不同的语言和环境。
PL-BERT - 通过PL-BERT实现更自然的语音合成
PL-BERT文本转语音自然语言模型语音合成图标预测Github开源项目
PL-BERT,一种创新的音素级预训练语言模型,通过预测掩码音素对应的字形,有效提升了多语种文本到语音转换的自然度和准确性。经科学评估,其合成语音质量在面对非模型文本时,较传统方法有明显提高,推动了语音合成技术的进步。
dc_tts - 基于深度卷积网络的高效文本到语音转换模型
DC-TTSTensorFlow文本转语音训练模型语音样本Github开源项目
dc_tts,一个基于TensorFlow的文本到语音转换模型,使用深度卷积网络和引导注意力机制进行设计。项目不仅还原了相关学术论文,还对不同声音数据进行了深入研究,支持多种语言和数据集,提供完善的训练及预处理教程以及预训练模型,适用于学术研究和实际应用场景。
edge-tts - 模块精确支持多语言文本转语音功能,且具备声音自定义调整。
edge-tts文本转语音Microsoft EdgePython模块命令行Github开源项目
edge-tts作为一个基于Python的模块,利用Microsoft Edge的在线服务实现文本到语音的转换。支持丰富的语音和语言选项,并允许用户调整语速、音量和音调,适合于各类文本至语音的转换需求。此模块有效简化语音合成流程,提升开发效率。
vits2_pytorch - 单阶段文本到语音转换的效率与质量提升
VITS2文本转语音单阶段模型对抗学习架构设计Github开源项目
VITS2_pytorch是一款先进的单阶段文本到语音转换模型,采用对抗学习和架构设计改进前代产品。这一最新的非官方实现版本,旨在通过增强模型结构和训练机制,有效提升语音自然度和特征相似性,同时显著降低对音素转换的依赖,从而提高训练和推断的效率。该项目还为专业人士提供了预训练模型和多种语言的样本音频,支持开箱即用的转换学习。
VoiceFlow-TTS - 结合最新流匹配算法的文本转语音技术
VoiceFlow文本转语音Kaldi模型训练数据准备Github开源项目
VoiceFlow-TTS项目采用先进的矫正流匹配技术,提升了文本到语音转换的效率和自然度。此项目详细介绍了设置环境、准备数据、训练模型以及推理过程,支持多GPU并发处理,兼容多种数据集。
voicesmith - 实现个性化语音合成的强大工具
VoiceSmith文本转语音多说话者模型DelightfulTTSUnivNetGithub开源项目
VoiceSmith是一个允许用户训练和应用单语者及多语者模型的平台。该项目基于改良的DelightfulTTS和UnivNet模型,能在个人数据集上进行微调,带来高度自然的语音输出。VoiceSmith还包括数据预处理工具,如自动文本规范化功能,适合在Windows或Linux系统上使用,推荐配置NVIDIA GPU以优化训练效率。
glow-tts - 通过单调对齐搜索进行文本转语音的生成流
Glow-TTS文本转语音并行合成HiFi-GAN模型训练Github开源项目
Glow-TTS,一款创新的文本到语音转换模型,独立完成文本与语音的单调对齐搜索,无需外部辅助。此模型不仅大幅提升合成速度,还支持多样性与可控性,并可适应多说话人环境。更新项包括采用新技术降低噪声并优化发音,使其在速度和音质上优于传统模型。
Multi-Tacotron-Voice-Cloning - 实现俄语和英语语音克隆的多功能深度学习系统
Multi-Tacotron Voice Cloning语音合成深度学习多语种文本转语音Github开源项目
Multi-Tacotron-Voice-Cloning 是基于Real-Time-Voice-Cloning开发的,支持俄语与英语的多语言语音克隆系统。该系统能够利用几秒钟的音频样本,生成声音的数值模型并应用于文本到语音的转换。提供预训练模型和广泛的数据集,同时支持在线Colab演示,适合需要进行英语或俄语语音合成的用户。
ChatTTS - 用于日常对话的文生语音模型
ChatTTS文本转语音对话系统开源多语言支持Github开源项目热门
ChatTTS是为对话场景特别设计的文本到语音模型,支持多种语言和多发言者交互。该模型优化对话基础任务,支持细粒度的韵律特征控制,如笑声、停顿等。通过使用预训练模型,ChatTTS在自然语言合成和表达能力方面均有突破性进展,适用于教育和研究目的。