#文本到语音

Amphion: 开源音频、音乐和语音生成工具包

3 个月前

Amphion 语音生成音乐生成文本到语音声码器 Github 开源项目

3 个月前

Rodel.Agent：打造智能 AI 助手的全能利器

3 个月前

Rodel Agent Windows AI服务桌面应用文本到语音 Github 开源项目

3 个月前

AIUI: 开启人工智能语音交互新纪元

3 个月前

AIUI 语音接口 GPT-4 GPT-3.5 文本到语音 Github 开源项目

3 个月前

StyleSpeech: 多说话人自适应文本转语音生成的创新方法

3 个月前

Meta-StyleSpeech 文本到语音自适应预训练模型音质 Github 开源项目

3 个月前

Mega-TTS 2: 突破性的零样本文本转语音技术

3 个月前

Megatts2 文本到语音 Pytorch-lightning 数据集准备 VQ-GAN Github 开源项目

3 个月前

MsEdgeTTS: 简单而强大的微软 Edge 语音合成模块

3 个月前

MsEdgeTTS 文本到语音 Microsoft Edge Azure Speech Service SSML Github 开源项目

3 个月前

GenerSpeech: 突破性的零样本风格迁移文本转语音模型

3 个月前

GenerSpeech 文本到语音风格转换零样本学习多GPU支持 Github 开源项目

3 个月前

DiffGAN-TTS: 高保真度和高效率的文本转语音新技术

3 个月前

DiffGAN-TTS 文本到语音 PyTorch 多说话者TTS 训练模型 Github 开源项目

3 个月前

StyleTTS 2: 突破性的人类级别文本转语音技术

3 个月前

StyleTTS 文本到语音自然语言处理情感语调语音合成 Github 开源项目

3 个月前

VITS2: 改进单阶段文本转语音的质量和效率

3 个月前

VITS2 文本到语音单阶段模型自然语言处理 SK Telecom Github 开源项目

3 个月前

相关项目

EmotiVoice

EmotiVoice是一款功能强大的开源文本转语音（TTS）引擎，支持中英文，并配备超过2000种声音选项。其最显著的特点是情感合成功能，用户可以创建表达各种情绪的语音，如快乐、激动、悲伤和愤怒等。EmotiVoice提供易于使用的Web界面和脚本接口，适用于批量生成结果，同时还支持语音速度调整，提供Mac应用程序和HTTP API，增设免费调用次数。

ElevenLabs

ElevenLabs 提供先进的文本到语音和AI语音生成服务，支持多种语言和声音。真实且响应迅速的人声模拟，可广泛应用于内容创作、客户互动等领域，突破语言壁垒，优化数字交互。

StyleTTS

StyleTTS是一款高效的文本到语音合成工具，能够从参考语音中学习并再现其语调与情感，同时确保语音自然和说话者之间的高度相似度。

tacotron

基于TensorFlow的Tacotron模型，是一个全面的端对端文本转语音合成系统。该模型涵盖多种数据集，运用现代深度学习与注意力机制优化文本到语音的高质量转换，适用于学术研究与商业应用。

vits_chinese

vits_chinese项目引入了BERT和VITS技术，通过隐藏的韵律嵌入和自然语言特性，显著提高了文本到语音合成的音质和自然度。此项目不只适于高质量音频生成，也提供模块化蒸馏加速和在线演示，便利学习和开发人员的应用。

MsEdgeTTS

MsEdgeTTS是一个基于Azure语音服务的简易模块，通过Microsoft Edge的朗读API实现文字转语音，支持speak、voice、prosody等SSML元素。项目提供多种音频输出格式，并通过详细的API文档和示例，便于用户有效集成及使用。

StyleSpeech

Meta-StyleSpeech项目结合最新的多说话者适应性文本到语音合成技术，通过样本少量的语音输入即可生成高质量合成语音。该项目运用风格自适应层归一化技术，高效适配不同说话者的声音特征。提供预训练模型和在线演示供实际应用测试。

DiffGAN-TTS

DiffGAN-TTS采用去噪扩散生成对抗网络技术，通过激活浅层扩散机制，提供了一种高效且高保真的文本到语音转换方案。该技术支持多种发音特征和语种，实现了保持语音自然度的同时，进行灵活的语音控制，包括音调和语速的调整。此技术适用于多语言和多说话人场景，为深度学习语音合成领域提供了新的可能性。

vits2

VITS2项目融合了对抗学习与结构设计，在单阶段文本转语音技术上实现了显著的质量与效率提升。此模型通过结构和训练机制的优化，增强了语音的自然感和多讲者语音特征的匹配度，并提高了训练及推理速度。VITS2的创新技术显著降低了对音素转换的依赖，支持了完整的端到端处理。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com