#Vocos

vocos - 基于傅里叶变换的快速神经声码器

Github开源项目深度学习音频合成语音技术神经声码器Vocos

Vocos是一款创新的神经声码器，通过生成频谱系数而非时域样本来合成音频波形。它采用GAN训练，支持从梅尔频谱图和EnCodec令牌重建音频，实现了快速高效的音频合成。Vocos的独特设计弥合了时域和傅里叶域神经声码器之间的差距，为音频合成领域提供了新的解决方案。

alvocat-vocos-22khz - 高效的加泰罗尼亚语音频合成技术

Github开源项目语音合成模型Huggingface声码器声音合成VocosCatalan

基于Vocos架构的加泰罗尼亚语音频合成器，通过80-bin Mel频谱生成高质量音频，与多种TTS模型兼容，专为从mel频谱到音频波形的转换而设计，训练于三种加泰罗尼亚语数据集，可作为hifi-gan的高效替代方案。

相关文章

Article Cover

Vocos: 革新神经语音合成的高效率声码器

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号