Logo

#文本转语音

Logo of ChatTTS
ChatTTS
ChatTTS是为对话场景特别设计的文本到语音模型,支持多种语言和多发言者交互。该模型优化对话基础任务,支持细粒度的韵律特征控制,如笑声、停顿等。通过使用预训练模型,ChatTTS在自然语言合成和表达能力方面均有突破性进展,适用于教育和研究目的。
Logo of PaddleSpeech
PaddleSpeech
PaddleSpeech是基于PaddlePaddle平台的开源语音处理工具集,覆盖自动语音识别、文本转语音合成、说话人确认及声音分类等多项功能,提供易于使用、高效和灵活的模型,支持各类语音相关任务。工具集包含全流程服务,支持流式识别与合成系统,为研究和工业应用提供强大支持。
Logo of Deepgram Voice AI
Deepgram Voice AI
Deepgram Voice AI平台,采用最新Nova-2语音识别模型,提供实时、高效和低成本的语音转文字与文字转语音APIs,适用于医疗转录、客户服务与媒体字幕制作等多种场景。
Logo of Voicemaker
Voicemaker
Voicemaker® 是一款使用AI技术优化的先进文本到语音转换工具,支持多种语言和声音选项,确保自然流畅的听觉体验。用户可以自定义语速、音调和语音效果,广泛应用于有声内容制作与教育领域。该平台提供多样的付费计划,并受到全球多个知名品牌的信赖和使用。
Logo of nix-tts
nix-tts
Nix-TTS通过模块化知识蒸馏技术实现了高效轻量的端到端文本转语音合成,显著降低模型尺寸至5.23M参数,加速了处理速度,同时保持了良好的声音自然性。
Logo of WhisperSpeech
WhisperSpeech
WhisperSpeech是基于开源Whisper框架开发的文本至语音系统,提供了商业级安全的语音合成解决方案。当前支持英语LibreLight数据集,并计划拓展到多语言支持。用户可通过在线Colab平台体验其高效的语音合成和声音克隆功能。
Logo of gTTS
gTTS
gTTS,一款Python库和命令行工具,能通过Google翻译API进行文本到语音转换,并输出为mp3。特色包括自定义语句分割和文本预处理,以支持长文本的准确语调处理。适用于所有需要语音合成功能的开发者。更多信息,参见官方文档。
Logo of PL-BERT
PL-BERT
PL-BERT,一种创新的音素级预训练语言模型,通过预测掩码音素对应的字形,有效提升了多语种文本到语音转换的自然度和准确性。经科学评估,其合成语音质量在面对非模型文本时,较传统方法有明显提高,推动了语音合成技术的进步。
Logo of VoiceFlow-TTS
VoiceFlow-TTS
VoiceFlow-TTS项目采用先进的矫正流匹配技术,提升了文本到语音转换的效率和自然度。此项目详细介绍了设置环境、准备数据、训练模型以及推理过程,支持多GPU并发处理,兼容多种数据集。
Logo of klaam
klaam
klaam项目通过采用尖端技术模型如wave2vec和fastspeech2,提供全面的阿拉伯语语音识别、分类和文字转语音服务。支持多种方言和数据集,便于培训、预测与快速部署。
Logo of read-aloud
read-aloud
Chrome 和 Firefox 浏览器扩展,支持文本语音转换。适用于新闻、博客、教育网站等,支持本地和 Google Wavenet、Amazon Polly 等云服务语音,部分语音需额外付费。适合阅读障碍者、学习语言的儿童及需要眼睛休息的用户。
Logo of coqui-ai-TTS
coqui-ai-TTS
coqui-ai-TTS是一个先进的开源文本转语音库,支持超过1100种语言。该库提供多种深度学习模型,如Tacotron2、VITS和YourTTS,用于生成高质量语音。它还包含训练新模型、微调现有模型的工具,支持多说话人TTS,并提供数据集分析功能。
Logo of audio-ai-timeline
audio-ai-timeline
Audio AI Timeline项目追踪2023年音频生成领域AI模型进展。涵盖MusicLM、AudioLDM 2等重要模型,展示文本到音频、音乐生成和语音合成技术发展。项目记录模型发布日期、论文、代码和训练资源,为音频AI领域研究者和开发者提供参考。
Logo of GPT-SoVITS
GPT-SoVITS
GPT-SoVITS-WebUI是一款功能强大的在线语音转换和文本转语音工具,支持跨语言转换与实时语音合成。项目集成了自动训练集分段、中文语音识别和文本标记等工具,能够帮助初学者轻松创建训练数据集和GPT/SoVITS模型。GPT-SoVITS支持零样本和少样本文本转语音,是音频处理领域的创新应用。
Logo of VEED
VEED
VEED.IO为全球用户提供高效的文本到语音转换,支持多种语言和真实声音选项,适用于内容制作及广告业务,提升视频生产的效率与质量。
Logo of PlayHT
PlayHT
探索PlayHT—超逾900种自然AI语音和多语种支持,适用于教育、广播、视频等多场景。支持MP3、WAV格式下载,免费体验版现已推出,满足一切商业及创意需求。
Logo of silero-models
silero-models
silero-models展示高质量预训练语音识别与合成模型,提供简化的企业级语音技术解决方案,性能匹敌谷歌STT。模型即用、支持多语言、语音合成自然,将企业和开发者的部署流程简化至极致。
Logo of deepvoice3_pytorch
deepvoice3_pytorch
DeepVoice3_pytorch是基于PyTorch的文本到语音深度学习平台,支持多语种和多数据集,包括英语、日语和韩语,适合多个说话者或单个说话者。项目提供预训练模型、音频样本、在线演示及详尽的训练指南,旨在简化用户的使用过程,并能灵活定制个性化的语音合成应用。
Logo of marytts
marytts
MaryTTS,开源多语种文本转语音系统,基于Java实现,兼容各主要平台。支持广泛的语言和方言,易于在Java项目中集成和自定义。提供全面的服务器运维和应用开发文档,是开发者及IT专业人士的理想选择。
Logo of epub2tts
epub2tts
epub2tts是一个开源Python应用,支持多引擎文本到语音转换,包括Coqui AI TTS、OpenAI和MS Edge,提供自动章节检测、封面嵌入等功能,支持断点续传和语音自定义选项。
Logo of dc_tts
dc_tts
dc_tts,一个基于TensorFlow的文本到语音转换模型,使用深度卷积网络和引导注意力机制进行设计。项目不仅还原了相关学术论文,还对不同声音数据进行了深入研究,支持多种语言和数据集,提供完善的训练及预处理教程以及预训练模型,适用于学术研究和实际应用场景。
Logo of voicesmith
voicesmith
VoiceSmith是一个允许用户训练和应用单语者及多语者模型的平台。该项目基于改良的DelightfulTTS和UnivNet模型,能在个人数据集上进行微调,带来高度自然的语音输出。VoiceSmith还包括数据预处理工具,如自动文本规范化功能,适合在Windows或Linux系统上使用,推荐配置NVIDIA GPU以优化训练效率。
Logo of tetos
tetos
TeTos通过一个简洁的命令行接口,支持包括Google、Azure和OpenAI在内的多家著名TTS服务。安装简易,通过几行命令即可集成使用,为需多语言支持的开发者和企业带来便利。
Logo of chatgpt-java
chatgpt-java
这是一款非官方的社区维护Java库,可快速接入OpenAI API。支持所有官方接口,包括Token计算、自定义知识库、AI助理、图片生成和文本转语音等功能。项目持续更新,解决各种应用场景中的API调用问题,确保稳定性和可靠性。用户可根据文档快速集成,并支持多种自定义配置,方便开发者灵活控制API访问策略和客户端设置。
Logo of sam
sam
SAM-js是1982年Commodore C64平台上SAM (Software Automatic Mouth)文本转语音软件的JavaScript移植版。该项目保留了原版低内存占用和小文件体积的特点,提供文本到音素转换和语音输出功能。通过简单API,开发者可实现语音播放、波形文件下载和音频缓冲区生成,为现代Web应用轻松添加复古风格的语音合成能力。SAM-js项目基于C语言版本改编,使用纯JavaScript实现,避免了Emscripten转换,实现了更小的文件体积。它适用于需要复古语音效果的Web游戏、教育应用或交互式网站,为开发者提供了一个独特的、低资源消耗的语音合成解决方案。
Logo of Bridge-TTS
Bridge-TTS
Bridge-TTS是一个革新性的文本转语音(TTS)项目,利用人工智能和机器学习技术,通过创新的数据处理方法优化语音合成。无论在简单还是复杂的应用场景中,它都显著优于传统的扩散模型。这一突破不仅提升了TTS技术水平,还为语音合成和相关人工智能领域开辟了新的研究方向。项目详情、研究方法和结果可在官方网站查阅,完整源代码将在论文被学术界正式接受后公开发布。
Logo of MeloTTS
MeloTTS
MeloTTS是由MyShell.ai开发的多语言、多方言文本转语音库,支持包括英语(美国、英国、印度、澳大利亚)、西班牙语、法语、中文(结合英语)、日语和韩语等语种。该库特别适合于CPU实时推断,支持无安装使用,本地安装及自定义数据集训练。加入Discord社区交流,共同探讨与合作。
Logo of 琅琅配音
琅琅配音
琅琅配音是一款支持超过30种语言和众多情感风格的AI配音平台。提供免费和会员服务,适用于视频解说、有声书、广告等多种场景。界面简洁易用,功能强大,使制作专业品质的配音内容更为便捷。
Logo of Genny
Genny
Genny是一款屡获殊荣的AI语音生成器和文本转语音软件,提供逾500种声音选项,支持100多种语言。该平台集成了在线视频编辑器,用户可轻松创建和编辑营销、培训和社交媒体视频内容。实现高质量语音合成及视频生产,提高内容创作的效率与互动性。
Logo of flutter_tts
flutter_tts
flutter_tts 是一个跨平台文本转语音插件,兼容Android、iOS、Web、Windows和macOS。它支持多种功能,包括语言选择、语速、音调与音量调节,满足广泛的应用场景和开发需求。
Logo of vits-simple-api
vits-simple-api
vits-simple-api运用先进的VITS技术,支持文本到语音的转换,包括情感和声音风格的自定义,适用于众多场景。此外,项目还支持中文、日语等多语言,提供实时和批量处理模式,以及Docker和虚拟环境部署选项,确保安装和使用的便捷性。
Logo of android-speech
android-speech
android-speech库,当前版本x.y.z,为Android开发者提供便捷、高效的语音识别与文字转语音解决方案。该库支持简单的初始化设置和API调用,提供多语言和多种声音选项,配备有自定义进度动画。
Logo of Talkify
Talkify
Talkify为多语言环境提供高品质的文字转语音服务。该库支持范围广泛的语言,包括中文和英文,便于开发者通过几个简单步骤集成至任何网站。具有全面的API支持和控制界面,每月初次1000次请求免费。立即注册以体验先进的语音合成服务。
Logo of edge-tts
edge-tts
edge-tts作为一个基于Python的模块,利用Microsoft Edge的在线服务实现文本到语音的转换。支持丰富的语音和语言选项,并允许用户调整语速、音量和音调,适合于各类文本至语音的转换需求。此模块有效简化语音合成流程,提升开发效率。
Logo of glow-tts
glow-tts
Glow-TTS,一款创新的文本到语音转换模型,独立完成文本与语音的单调对齐搜索,无需外部辅助。此模型不仅大幅提升合成速度,还支持多样性与可控性,并可适应多说话人环境。更新项包括采用新技术降低噪声并优化发音,使其在速度和音质上优于传统模型。
Logo of FastSpeech2
FastSpeech2
FastSpeech 2,面向精准快速的文本到语音转换,基于PyTorch与Espnet技术,配备Nvidia与MelGAN工具,极致优化语音生成效果,适合各类开发者利用和研究。
Logo of elevenlabs-python
elevenlabs-python
ElevenLabs提供的Python API,可通过几行代码生成高质量和逼真的语音。支持同步和异步操作,兼容29种语言和100多种口音,包含多种文本到语音模型,适用于语音克隆和实时语音生成。也支持Hugging Face Spaces和Google Colab,便于快速上手。
Logo of parler-tts
parler-tts
Parler-TTS是一个轻量级开源文本转语音模型,通过文本提示控制语音特征如性别、语速和音调。项目提供完整训练和推理代码及预训练模型,便于用户定制TTS模型。最新版本引入SDPA和Flash Attention 2,显著提升生成速度。该模型支持随机声音生成和特定说话人复制,适用于多种TTS应用场景。
Logo of tortoise
tortoise
Tortoise TTS 是一款先进的文本转语音软件,专为提供多声音功能和高度真实的语调与韵律设计。该项目支持各种安装方式,包括pip和Docker,并提供了完善的本地安装指南。此外,Tortoise TTS 还在Hugging Face上提供在线演示,用户可体验其强大功能。它使用了自回归解码器和扩散解码器,大幅提升了语音生成的速度和质量。无论是个人用户还是开发者,都可通过详细的使用指南迅速上手和部署。
Logo of Uberduck
Uberduck
Uberduck是一个支持多语言的AI语音合成服务平台,提供文本到语音转换、歌声生成和语音克隆技术。它帮助音乐制作人、内容创作者和营销人员通过AI技术,提升音频内容的创造与编辑能力。
Logo of Typecast
Typecast
Typecast提供在线AI语音生成服务,可将文本转化为逼真语音。其提供超过130种声音选项,并支持实时语音自定义和视频配音,适合有声书、视频游戏和市场营销等多种应用场景。此平台使用先进机器学习技术,在语音合成上实现了高度自然性和可控性。Typecast还能支持多语种视频内容制作,助力创作者制作专业的音频和视觉作品。
Logo of aspeak
aspeak
aspeak是一个开源的文本到语音转换工具,使用Rust编写,兼容Azure TTS API,支持RESTful和WebSocket API模式。适用于多个平台的安装,提供免费和付费使用方案。
Logo of KAN-TTS
KAN-TTS
KAN-TTS能够提供从零开始训练个性化文本到语音模型的能力。支持包括sam-bert和hifi-GAN在内的多种模型,并持续进行模型更新。支持多种语言,包括普通话、英语等。详尽的培训教程和在线演示可在官方网站查阅。如有疑问,欢迎联系我们。
Logo of PortaSpeech
PortaSpeech
基于PyTorch的PortaSpeech项目,提供一种高质量且便携的文本到语音转换实现方案。这个项目支持单声道和多声道TTS,包含快速启动指南、多种样本、预训练模型,适合研究和实际开发。它还为数据预处理和模型训练提供详细指南,帮助用户轻松使用并优化其TTS系统。
Logo of espnet
espnet
ESPnet是一个端到端语音处理模块,封装了多个领域的语音处理任务,如语音识别、文本到语音、语音翻译、语音增强和说话人分割等。该平台基于Pytorch开发,采用符合Kaldi风格的数据处理方法,提供针对各类语音处理实验的完整解决方案。ESPnet支持多语言处理,并能够调整自身以适应不同的语言和环境。
Logo of vits2_pytorch
vits2_pytorch
VITS2_pytorch是一款先进的单阶段文本到语音转换模型,采用对抗学习和架构设计改进前代产品。这一最新的非官方实现版本,旨在通过增强模型结构和训练机制,有效提升语音自然度和特征相似性,同时显著降低对音素转换的依赖,从而提高训练和推断的效率。该项目还为专业人士提供了预训练模型和多种语言的样本音频,支持开箱即用的转换学习。
Logo of Multi-Tacotron-Voice-Cloning
Multi-Tacotron-Voice-Cloning
Multi-Tacotron-Voice-Cloning 是基于Real-Time-Voice-Cloning开发的,支持俄语与英语的多语言语音克隆系统。该系统能够利用几秒钟的音频样本,生成声音的数值模型并应用于文本到语音的转换。提供预训练模型和广泛的数据集,同时支持在线Colab演示,适合需要进行英语或俄语语音合成的用户。
Logo of Tacotron-pytorch
Tacotron-pytorch
Tacotron-pytorch是基于Pytorch框架开发的端到端文本至语音合成模型。该项目支持通过清晰的指南轻松部署和训练,使用LJSpeech数据集,并附带完整的预处理代码和网络训练文件。用户可以根据需要自定义超参数,非常适合进行科研和技术开发。项目提供了将成熟度逐渐提升的语音示例,欢迎进行下载和反馈。
Logo of bark
bark
Bark是Suno开发的开源文本到音频生成模型,能生成逼真的多语言语音、音乐、背景噪音和简单音效。支持笑声、叹息等非语言交流,适用于研究目的。采用transformer架构,直接将文本转换为音频。提供100多种语音预设,可生成随机语音,但不支持自定义语音克隆。该模型为全生成式设计,可能偏离给定脚本,适合各种音频生成任务。
Logo of VoiceCraft
VoiceCraft
VoiceCraft是一个开源的语音技术项目,专注于零样本语音编辑和实时文本转语音。该项目仅需几秒钟的参考音频即可克隆或编辑未知声音,在有声书、网络视频和播客等真实场景中表现出色。VoiceCraft提供多种运行方式,包括Google Colab、Docker和本地环境,方便研究人员和开发者使用。项目在语音编辑和零样本TTS领域达到了先进水平,为语音技术的发展开辟了新方向。