HierSpeech++：通过分层变分推理实现零样本语音合成中语义和声学表示的桥接
_{HierSpeech++的官方实现}

||演示页面|检查点

Sang-Hoon Lee, Ha-Yeong Choi, Seung-Bin Kim, Seong-Whan Lee

韩国首尔高丽大学人工智能系

摘要

基于大型语言模型(LLM)的语音合成在零样本语音合成中被广泛采用。然而，它们需要大规模数据，并且具有与之前的自回归语音模型相同的限制，包括推理速度慢和缺乏稳健性。本文提出了HierSpeech++，这是一种快速且强大的零样本语音合成器，用于文本到语音(TTS)和语音转换(VC)。我们验证了分层语音合成框架能显著提高合成语音的稳健性和表现力。此外，我们即使在零样本语音合成场景中也显著提高了合成语音的自然度和说话人相似度。对于文本到语音，我们采用文本到向量框架，根据文本表示和韵律提示生成自监督语音表示和F0表示。然后，HierSpeech++从生成的向量、F0和语音提示生成语音。我们进一步引入了一个从16 kHz到48 kHz的高效语音超分辨率框架。实验结果表明，分层变分自编码器可以成为强大的零样本语音合成器，因为它优于基于LLM和基于扩散的模型。此外，我们实现了首个人类水平质量的零样本语音合成。

Fig1_pipeline

本仓库包含：

🪐 HierSpeech++的PyTorch实现（TTV、分层语音合成器、SpeechSR）
⚡️ 在LibriTTS（Train-460、Train-960和更多数据集）上训练的预训练HierSpeech++模型
HuggingFace上的Gradio演示。HuggingFace为我们提供了社区GPU资助。谢谢😊

我们之前的工作

[NeurIPS2022] HierSpeech：通过使用自监督表示的分层变分推理桥接文本和语音之间的差距，用于语音合成
[Interspeech2023] HierVST：分层自适应零样本语音风格转换

本文是上述论文的扩展版本。

更新

24.02.20

我们恢复了ttv的重建损失。添加零填充的损失掩码会降低tts性能，生成随机的长停顿和重复声音（可能影响损失平衡）。对造成的混淆表示歉意。我已经将其修改为论文版本。

24.01.19

我们发布了TTV_v1训练代码。无论语言如何，您都可以使用个人数据集训练TTV，并使用预训练的分层语音合成器模型进行语音合成。

待办事项

分层语音合成器

HierSpeechpp-Backbone（LibriTTS-train-460）
HierSpeechpp-Backbone（LibriTTS-train-960）
HierSpeechpp-Backbone-60epoch（LibriTTS-train-960、Libri-light（Medium）、Expresso、MSSS（韩语）、NIKL（韩语））
HierSpeechpp-Backbone-200epoch（LibriTTS-train-960、Libri-light（Medium）、Expresso、MSSS（韩语）、NIKL（韩语））

文本到向量（TTV）

TTV-v1（LibriTTS-train-960）
TTV-v2（多语言TTV）

语音超分辨率（16k --> 24k或48k）

SpeechSR-24k
SpeechSR-48k

清理源代码

清理代码

训练代码（论文接受后发布）

TTV
分层语音合成器
SpeechSR

入门

前提条件

Pytorch >= 1.13和torchaudio >= 0.13
安装requirements

pip install -r requirements.txt

安装Phonemizer

pip install phonemizer
sudo apt-get install espeak-ng

检查点 [下载]

分层语音合成器

模型	采样率	参数	数据集	小时数	说话人数	检查点
HierSpeech2	16 kHz	97M	LibriTTS (train-460)	245	1,151	[下载]
HierSpeech2	16 kHz	97M	LibriTTS (train-960)	555	2,311	[下载]
HierSpeech2	16 kHz	97M	LibriTTS (train-960), Libri-light (Small, Medium), Expresso, MSSS(韩语), NIKL(韩语)	2,796	7,299	[下载]

TTV

模型	语言	参数量	数据集	小时数	说话人数	检查点
TTV	英语	107M	LibriTTS (train-960)	555	2,311	[下载]

SpeechSR

模型	采样率	参数量	数据集	检查点
SpeechSR-24k	16kHz --> 24 kHz	0.13M	LibriTTS (train-960), MSSS (韩语)	speechsr24k
SpeechSR-48k	16kHz --> 48 kHz	0.13M	MSSS (韩语), Expresso (英语), VCTK (英语)	speechsr48k

文本转语音

sh inference.sh

# --ckpt "logs/hierspeechpp_libritts460/hierspeechpp_lt460_ckpt.pth" \ LibriTTS-460
# --ckpt "logs/hierspeechpp_libritts960/hierspeechpp_lt960_ckpt.pth" \ LibriTTS-960
# --ckpt "logs/hierspeechpp_eng_kor/hierspeechpp_v1_ckpt.pth" \ Large_v1 60轮 (论文版本)
# --ckpt "logs/hierspeechpp_eng_kor/hierspeechpp_v1.1_ckpt.pth" \ Large_v1.1 200轮 (2023年11月20日)

CUDA_VISIBLE_DEVICES=0 python3 inference.py \
                --ckpt "logs/hierspeechpp_eng_kor/hierspeechpp_v1.1_ckpt.pth" \
                --ckpt_text2w2v "logs/ttv_libritts_v1/ttv_lt960_ckpt.pth" \
                --output_dir "tts_results_eng_kor_v2" \
                --noise_scale_vc "0.333" \
                --noise_scale_ttv "0.333" \
                --denoise_ratio "0"

为了更好的稳定性，我们建议使用0.333的噪声尺度
为了更好的表现力，我们建议使用0.667的噪声尺度
为你的风格提示找到最佳参数

噪声控制

# 不使用去噪器
--denoise_ratio "0"
# 使用去噪器
--denoise_ratio "1"
# 混合（建议0.6~0.8）
--denoise_rate "0.8"

语音转换

这种方法仅使用分层语音合成器进行语音转换。

sh inference_vc.sh

# --ckpt "logs/hierspeechpp_libritts460/hierspeechpp_lt460_ckpt.pth" \ LibriTTS-460
# --ckpt "logs/hierspeechpp_libritts960/hierspeechpp_lt960_ckpt.pth" \ LibriTTS-960
# --ckpt "logs/hierspeechpp_eng_kor/hierspeechpp_v1_ckpt.pth" \ Large_v1 60轮 (论文版本)
# --ckpt "logs/hierspeechpp_eng_kor/hierspeechpp_v1.1_ckpt.pth" \ Large_v1.1 200轮 (2023年11月20日)

CUDA_VISIBLE_DEVICES=0 python3 inference_vc.py \
                --ckpt "logs/hierspeechpp_eng_kor/hierspeechpp_v1.1_ckpt.pth" \
                --output_dir "vc_results_eng_kor_v2" \
                --noise_scale_vc "0.333" \
                --noise_scale_ttv "0.333" \
                --denoise_ratio "0"

为了更好的稳定性，我们建议使用0.333的噪声尺度
为了更好的表现力，我们建议使用0.667的噪声尺度
为你的风格提示找到最佳参数
语音转换对噪声目标提示很敏感，因此我们建议使用去噪器处理带噪声的提示
对于噪声源语音，YAPPT可能会提取错误的F0，导致质量下降

语音超分辨率

SpeechSR-24k和SpeechSR-48在TTS流程中提供。如果你只想使用SpeechSR，请参考inference_speechsr.py。
如果你想更改输出分辨率，添加以下内容

--output_sr "48000" # 默认
--output_sr "24000" # 
--output_sr "16000" # 不使用超分辨率

语音去噪以实现无噪语音合成（仅在推理过程中的说话人编码器中使用）

对于去噪后的风格提示，我们使用去噪器(MP-SENet)。
使用长参考音频时，此模型会出现内存不足问题，所以我们计划在未来学习一个内存效率更高的语音去噪器。
如果你遇到问题，我们建议使用干净的参考音频或在TTS流程之前对音频进行去噪，或者使用CPU进行音频去噪（但这会很慢😥）。

（2023年11月21日）切片窗口去噪。这可能会减轻语音去噪的负担。

      if denoise == 0:
          audio = torch.cat([audio.cuda(), audio.cuda()], dim=0)
      else:
          with torch.no_grad():
              
              if ori_prompt_len > 80000:
                  denoised_audio = []
                  for i in range((ori_prompt_len//80000)):
                      denoised_audio.append(denoise(audio.squeeze(0).cuda()[i*80000:(i+1)*80000], denoiser, hps_denoiser))
                  
                  denoised_audio.append(denoise(audio.squeeze(0).cuda()[(i+1)*80000:], denoiser, hps_denoiser))
                  denoised_audio = torch.cat(denoised_audio, dim=1)
              else:
                  denoised_audio = denoise(audio.squeeze(0).cuda(), denoiser, hps_denoiser)

          audio = torch.cat([audio.cuda(), denoised_audio[:,:audio.shape[-1]]], dim=0)

TTV-v2（进行中）

TTV-v1是一个简单的模型，仅对VITS进行了很小的修改。虽然这个简单的TTV可以合成高质量、高说话人相似度的语音，但我们认为在表现力方面还有改进的空间，例如韵律建模。
对于TTV-v2，我们修改了一些组件和训练过程（模型大小：107M --> 278M）
1. 中间隐藏大小：256 --> 384
2. wav2vec重建损失的损失掩码（我忘记了对零填充序列进行掩码处理😥）
3. 对于长句生成，我们使用完整的LibriTTS-train数据集进行微调，不进行数据过滤（将学习率降至2e-5，每个GPU的批量大小为8）
4. 多语言数据集（我们目前正在使用英语、印地语和韩语数据集训练模型）

GAN对比扩散模型

[阅读更多]

我们认为目前还无法确定哪种方法更好。每种模型都有许多优点，所以你可以根据自己的目的选择使用，每种研究都应该同时积极进行。 ### GAN（特别是基于GAN的端到端语音合成模型） - （优点）快速推理速度 - （优点）高质量音频 - （缺点）训练速度慢（超过7~20天） - （缺点）声音风格迁移性能低于扩散模型 - （缺点）感知上高质量但因低维潜变量采样导致的信息瓶颈而过度平滑的音频

扩散（基于扩散的梅尔频谱图生成模型）

（优点）训练速度快（3天内）
（优点）高质量声音风格迁移
（缺点）推理速度慢
（缺点）音频质量低于端到端语音合成模型

（本工作中）我们对基于GAN的端到端语音合成模型的方法

改善端到端语音合成模型中的域外声音风格迁移性能（新说话人的零样本声音风格迁移）
超越感知质量，提高音频质量，实现更高保真度的音频生成

（我们的其他工作）基于扩散的梅尔频谱图生成模型

DDDM-VC：用于高质量和高多样性语音合成模型的解耦去噪扩散模型
Diff-hierVC：具有基于扩散的音高建模的分层扩散语音合成模型

我们的目标

整合各个模型，实现高质量、高多样性和高保真度的语音合成模型

基于LLM的模型

我们希望比较基于LLM的模型作为零样本TTS基线。然而，目前没有公开可用的官方LLM基TTS模型实现。不幸的是，非官方模型在零样本TTS中表现不佳，所以我们希望他们能发布模型以进行公平比较、复现，并造福语音社区。说实话，我无法忍受推理速度比端到端模型慢近1000倍，合成LibriTTS测试子集的完整句子需要5天。甚至音频质量也很差。我希望他们能尽快发布官方源代码。

就我个人观点而言，VITS仍是我见过的最佳TTS模型。但我承认，基于LLM的模型在大规模数据集上具有更强大的创造性生成潜力，只是现在还未实现。

我们工作的局限性

训练速度慢，模型规模相对较大（与VITS相比）--> 未来工作：轻量级和快速训练流程，以及更大的模型...
无法生成真实的背景声音 --> 未来工作：通过分离语音和声音来添加音频生成部分。
由于我们的训练设置，无法从过长的句子生成语音。我们发现增加最大长度可以提高模型性能。希望能用上80GB的GPU 😢
```
 # 受限计算资源的数据筛选
  wav_min = 32
  wav_max = 600 # 12秒
  text_min = 1
  text_max = 200
```

TTV v2可能会显著减少这个问题...！