HierSpeechpp
HierSpeech++项目提出了一种基于分层变分推理的零样本语音合成技术。该技术通过文本到向量框架生成语音表示,显著提高了合成语音的自然度和表现力。项目还引入了语音超分辨率框架,可将音频从16 kHz提升至48 kHz。实验表明,HierSpeech++在零样本语音合成任务中优于现有的基于大语言模型和扩散模型的方法,首次实现了人类水平质量的零样本语音合成。