FastSpeech2: 快速高质量的端到端文本转语音模型

近年来,神经网络驱动的文本转语音(TTS)技术取得了长足进步。FastSpeech2作为一种创新的TTS模型,在其前身FastSpeech的基础上进行了重要改进,解决了一对多映射问题,实现了更快速、更高质量的语音合成。本文将详细介绍FastSpeech2的原理、架构和实验结果。

FastSpeech2主要针对FastSpeech存在的以下问题进行了改进:

为了实现这些改进,FastSpeech2采取了以下创新措施:

直接使用真实语音作为训练目标,而不是教师模型的简化输出。
引入音高、能量和更准确的持续时间作为条件输入:
- 训练时从目标语音波形中提取这些信息作为输入。
- 推理时使用与FastSpeech2模型联合训练的预测器预测这些值。
提出FastSpeech 2s,在推理时直接从文本生成语音波形,实现完全端到端的优化。

FastSpeech2的整体架构如下图所示:

FastSpeech2架构图

主要包括以下几个部分:

FastSpeech2采用前馈Transformer块作为编码器和解码器的基本结构,包含自注意力层和一维卷积层。

研究人员在LJSpeech数据集上进行了实验,主要结果如下:

语音质量:FastSpeech2和FastSpeech 2s在平均意见得分(MOS)评估中,可以匹配自回归模型(如Transformer TTS和Tacotron 2)的语音质量,并且明显优于FastSpeech。
训练和推理速度:
- FastSpeech2将总训练时间缩短了3.12倍。
- 在波形合成中,FastSpeech2和FastSpeech 2s分别比Transformer TTS快47倍和51倍。
变化控制:FastSpeech2可以通过调整音高、能量等输入来控制合成语音的特性,增强了可控性。
消融实验:验证了引入的持续时间、音高和能量信息的有效性。