#声音合成

iSTFTNet-pytorch入门指南 - 快速轻量级语音合成Vocoder模型

2 个月前
Cover of iSTFTNet-pytorch入门指南 - 快速轻量级语音合成Vocoder模型

DiffSinger入门学习资料 - 基于浅层扩散机制的歌声合成模型

2 个月前
Cover of DiffSinger入门学习资料 - 基于浅层扩散机制的歌声合成模型

TTTS: 下一代文本转语音系统的训练框架

3 个月前
Cover of TTTS: 下一代文本转语音系统的训练框架

iSTFTNet-pytorch: 快速轻量级梅尔频谱图声码器

3 个月前
Cover of iSTFTNet-pytorch: 快速轻量级梅尔频谱图声码器

DiffSinger: 基于浅层扩散机制的歌声合成新方法

3 个月前
Cover of DiffSinger: 基于浅层扩散机制的歌声合成新方法
相关项目
Project Cover

iSTFTNet-pytorch

iSTFTNet,一款结合逆短时傅里叶变换的Mel频谱声码器,训练速度较传统hifigan快30%,性能超前60%。以C8C8I模型为核心,优化声音质量和处理速度,适配快速高效的语音处理需求。虽主要为技术测试和验证,其音质和处理速度的优势已得到实证。

Project Cover

DiffSinger

DiffSinger项目通过PyTorch实现高效的浅层扩散机制声音合成。该项目支持多样的模型训练配置,涵盖基础、辅助解码器及浅层版本,并提供实时控制音调、音量和语速的功能,以适应不同的声音合成需求。适用于LJSpeech等数据集,适合从事音频合成研究与开发的专业人士。

Project Cover

ttts

TTTS_v4是一个开源的多语言语音合成项目,通过创新的'细节'建模方法改进了传统VQ技术。该项目现已支持中文、英文、日语和韩语,并具有扩展性。TTTS_v4整合了tokenizer训练、VQVAE训练和GPT语音合成技术,旨在生成高质量的自然语音。此外,项目还提供模型微调功能,适用于多种语言场景和个性化需求。

Project Cover

voicemy.ai

voicemy.ai是一个创新的AI语音和音乐创作平台,提供语音克隆、AI模型训练和旋律创作功能。用户可以在平台上创作、分享作品,释放创造力。该平台即将推出文本转语音功能,进一步扩展其应用范围。voicemy.ai通过AI技术赋能,为专业音乐人和爱好者提供了一个独特的创作和分享空间,激发灵感并启发世界。

Project Cover

alvocat-vocos-22khz

基于Vocos架构的加泰罗尼亚语音频合成器,通过80-bin Mel频谱生成高质量音频,与多种TTS模型兼容,专为从mel频谱到音频波形的转换而设计,训练于三种加泰罗尼亚语数据集,可作为hifi-gan的高效替代方案。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号