#声音合成

iSTFTNet-pytorch - 轻量级Mel频谱声码器

Github开源项目轻量级声音合成iSTFTNetMel-spectrogramVocoder

iSTFTNet，一款结合逆短时傅里叶变换的Mel频谱声码器，训练速度较传统hifigan快30%，性能超前60%。以C8C8I模型为核心，优化声音质量和处理速度，适配快速高效的语音处理需求。虽主要为技术测试和验证，其音质和处理速度的优势已得到实证。

DiffSinger - 通过浅层扩散机制进行歌唱语音合成

Github开源项目PyTorchDiffSingerDiffSpeech声音合成LJSpeech

DiffSinger项目通过PyTorch实现高效的浅层扩散机制声音合成。该项目支持多样的模型训练配置，涵盖基础、辅助解码器及浅层版本，并提供实时控制音调、音量和语速的功能，以适应不同的声音合成需求。适用于LJSpeech等数据集，适合从事音频合成研究与开发的专业人士。

ttts - 创新多语言语音合成技术的突破性进展

Github开源项目多语言支持AI模型TTS声音合成VQVAE

TTTS_v4是一个开源的多语言语音合成项目，通过创新的'细节'建模方法改进了传统VQ技术。该项目现已支持中文、英文、日语和韩语，并具有扩展性。TTTS_v4整合了tokenizer训练、VQVAE训练和GPT语音合成技术，旨在生成高质量的自然语音。此外，项目还提供模型微调功能，适用于多种语言场景和个性化需求。

voicemy.ai - 创新AI语音克隆与音乐创作平台

人工智能AI工具声音合成AI语音克隆语音模型训练VoiceMy.ai

voicemy.ai是一个创新的AI语音和音乐创作平台，提供语音克隆、AI模型训练和旋律创作功能。用户可以在平台上创作、分享作品，释放创造力。该平台即将推出文本转语音功能，进一步扩展其应用范围。voicemy.ai通过AI技术赋能，为专业音乐人和爱好者提供了一个独特的创作和分享空间，激发灵感并启发世界。

alvocat-vocos-22khz - 高效的加泰罗尼亚语音频合成技术

Github开源项目语音合成模型Huggingface声码器声音合成VocosCatalan

基于Vocos架构的加泰罗尼亚语音频合成器，通过80-bin Mel频谱生成高质量音频，与多种TTS模型兼容，专为从mel频谱到音频波形的转换而设计，训练于三种加泰罗尼亚语数据集，可作为hifi-gan的高效替代方案。

相关文章

Article Cover

DiffSinger: 基于浅层扩散机制的歌声合成新方法

Article Cover

iSTFTNet-pytorch: 快速轻量级梅尔频谱图声码器

Article Cover

TTTS: 下一代文本转语音系统的训练框架

Article Cover

DiffSinger入门学习资料 - 基于浅层扩散机制的歌声合成模型

Article Cover

iSTFTNet-pytorch入门指南 - 快速轻量级语音合成Vocoder模型

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号