#Vocos
vocos - 基于傅里叶变换的快速神经声码器
Github开源项目深度学习音频合成语音技术神经声码器Vocos
Vocos是一款创新的神经声码器,通过生成频谱系数而非时域样本来合成音频波形。它采用GAN训练,支持从梅尔频谱图和EnCodec令牌重建音频,实现了快速高效的音频合成。Vocos的独特设计弥合了时域和傅里叶域神经声码器之间的差距,为音频合成领域提供了新的解决方案。
alvocat-vocos-22khz - 高效的加泰罗尼亚语音频合成技术
Github开源项目语音合成模型Huggingface声码器声音合成VocosCatalan
基于Vocos架构的加泰罗尼亚语音频合成器,通过80-bin Mel频谱生成高质量音频,与多种TTS模型兼容,专为从mel频谱到音频波形的转换而设计,训练于三种加泰罗尼亚语数据集,可作为hifi-gan的高效替代方案。