#文本到语音

StyleSpeech学习资料汇总 - 多说话人自适应文本转语音生成系统

2 个月前

Meta-StyleSpeech 文本到语音自适应预训练模型音质 Github 开源项目

2 个月前

MegaTTS 2 学习资料汇总 - 零样本语音合成的革命性进展

2 个月前

Megatts2 文本到语音 Pytorch-lightning 数据集准备 VQ-GAN Github 开源项目

2 个月前

MsEdgeTTS入门学习资料汇总 - 基于Microsoft Edge Read Aloud API的Azure语音服务模块

2 个月前

MsEdgeTTS 文本到语音 Microsoft Edge Azure Speech Service SSML Github 开源项目

2 个月前

DiffGAN-TTS学习资料汇总 - 基于去噪扩散GAN的高保真高效文本转语音模型

2 个月前

DiffGAN-TTS 文本到语音 PyTorch 多说话者TTS 训练模型 Github 开源项目

2 个月前

GenerSpeech入门学习资料 - 高保真零样本风格迁移TTS模型

2 个月前

GenerSpeech 文本到语音风格转换零样本学习多GPU支持 Github 开源项目

2 个月前

StyleTTS学习资料汇总 - 自然多样化的文本转语音生成模型

2 个月前

StyleTTS 文本到语音自然语言处理情感语调语音合成 Github 开源项目

2 个月前

VITS2学习资料汇总 - 改进单阶段文本转语音的质量和效率

2 个月前

VITS2 文本到语音单阶段模型自然语言处理 SK Telecom Github 开源项目

2 个月前

vits_chinese学习资料汇总 - 基于BERT和VITS的高质量中文语音合成系统

2 个月前

TTS BERT VITS 文本到语音自然语言处理 Github 开源项目

2 个月前

EmotiVoice学习资料汇总 - 一款强大的多语音和情感可控的开源TTS引擎

2 个月前

EmotiVoice 文本到语音情感合成开源多声音 Github 开源项目热门

2 个月前

bark.cpp: 快速多语种文本转语音的C/C++实现

3 个月前

bark.cpp 实时多语言文本到语音模型支持 Github 开源项目

3 个月前

相关项目

EmotiVoice

EmotiVoice是一款功能强大的开源文本转语音（TTS）引擎，支持中英文，并配备超过2000种声音选项。其最显著的特点是情感合成功能，用户可以创建表达各种情绪的语音，如快乐、激动、悲伤和愤怒等。EmotiVoice提供易于使用的Web界面和脚本接口，适用于批量生成结果，同时还支持语音速度调整，提供Mac应用程序和HTTP API，增设免费调用次数。

ElevenLabs

ElevenLabs 提供先进的文本到语音和AI语音生成服务，支持多种语言和声音。真实且响应迅速的人声模拟，可广泛应用于内容创作、客户互动等领域，突破语言壁垒，优化数字交互。

StyleTTS

StyleTTS是一款高效的文本到语音合成工具，能够从参考语音中学习并再现其语调与情感，同时确保语音自然和说话者之间的高度相似度。

tacotron

基于TensorFlow的Tacotron模型，是一个全面的端对端文本转语音合成系统。该模型涵盖多种数据集，运用现代深度学习与注意力机制优化文本到语音的高质量转换，适用于学术研究与商业应用。

vits_chinese

vits_chinese项目引入了BERT和VITS技术，通过隐藏的韵律嵌入和自然语言特性，显著提高了文本到语音合成的音质和自然度。此项目不只适于高质量音频生成，也提供模块化蒸馏加速和在线演示，便利学习和开发人员的应用。

MsEdgeTTS

MsEdgeTTS是一个基于Azure语音服务的简易模块，通过Microsoft Edge的朗读API实现文字转语音，支持speak、voice、prosody等SSML元素。项目提供多种音频输出格式，并通过详细的API文档和示例，便于用户有效集成及使用。

StyleSpeech

Meta-StyleSpeech项目结合最新的多说话者适应性文本到语音合成技术，通过样本少量的语音输入即可生成高质量合成语音。该项目运用风格自适应层归一化技术，高效适配不同说话者的声音特征。提供预训练模型和在线演示供实际应用测试。

DiffGAN-TTS

DiffGAN-TTS采用去噪扩散生成对抗网络技术，通过激活浅层扩散机制，提供了一种高效且高保真的文本到语音转换方案。该技术支持多种发音特征和语种，实现了保持语音自然度的同时，进行灵活的语音控制，包括音调和语速的调整。此技术适用于多语言和多说话人场景，为深度学习语音合成领域提供了新的可能性。

vits2

VITS2项目融合了对抗学习与结构设计，在单阶段文本转语音技术上实现了显著的质量与效率提升。此模型通过结构和训练机制的优化，增强了语音的自然感和多讲者语音特征的匹配度，并提高了训练及推理速度。VITS2的创新技术显著降低了对音素转换的依赖，支持了完整的端到端处理。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com