#Vocos

Vocos: 革新神经语音合成的高效率声码器

3 个月前

Vocos 神经声码器音频合成深度学习语音技术 Github 开源项目

3 个月前

相关项目

vocos

Vocos是一款创新的神经声码器，通过生成频谱系数而非时域样本来合成音频波形。它采用GAN训练，支持从梅尔频谱图和EnCodec令牌重建音频，实现了快速高效的音频合成。Vocos的独特设计弥合了时域和傅里叶域神经声码器之间的差距，为音频合成领域提供了新的解决方案。

vocos-encodec-24khz

Vocos是一种基于频域的神经声码器，利用生成对抗网络（GAN）训练，实现单次前向传递生成波形。通过在频域建模音频并使用逆傅里叶变换，Vocos能够快速重建高质量音频。项目提供简便的安装方法和使用示例，支持从EnCodec令牌重建音频和文件复制合成。这种创新方法在保证音频质量的同时大幅提升了处理效率，为音频合成技术开辟了新路径。

alvocat-vocos-22khz

基于Vocos架构的加泰罗尼亚语音频合成器，通过80-bin Mel频谱生成高质量音频，与多种TTS模型兼容，专为从mel频谱到音频波形的转换而设计，训练于三种加泰罗尼亚语数据集，可作为hifi-gan的高效替代方案。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com