Chinese-FastSpeech2 - FastSpeech2模型的中文升级

项目介绍：Chinese-FastSpeech2

Chinese-FastSpeech2项目致力于通过改进现有的语音合成技术，使得中文发音更加生动自然。这个项目主要基于FastSpeech2模型，并利用标贝中文标准女声数据进行了进一步训练。此外，项目还引入了韵律表征及韵律预测模块，大大提升了中文语音的节奏感和表现力。

更新内容（2023年4月2日）

项目在不断改进和更新中，以下是最近一次的更新内容：

新增韵律模型训练代码，代码位于项目中的BertProsody目录下。
加入了针对标贝数据的韵律模型数据预处理代码，尽管代码尚未完全整理，初步版本已在preprocessor/biaobei.py中实现。

样例展示

项目生成的音频样例可以在项目的samples目录中找到，用户可以通过这些样例体验模型生成的中文语音的效果。

模型文件

Chinese-FastSpeech2的核心架构是由FastSpeech2和HifiGAN构成的。此外，在输入阶段引入了中文文本的韵律向量，形成以下三个关键模型：fastspeech_model、hifigan_model、prosody_model。模型文件可以通过指定的百度网盘链接下载，下载后按照以下目录结构放置：

8000.pth.tar 需放入 output/ckpt/biaobei/
generator_universal.pth.tar 需放入 hifigan/
best_model.pt 需放入 transformer/prosody_model/

预测方法

项目提供了两种预测语音的方法：

命令行交互：运行python synthesize_all.py，用户可以在命令行中输入需要转换的文本，程序会在当前工作目录下生成名为tmp.wav的音频文件。
API接口调用：运行tts_server.py，启动语音接口服务器。用户可以参考TestServer.py来调用此接口，生成的音频文件同样会保存为tmp.wav，位于当前工作目录下。

训练方法

为了方便用户进行自定义训练，项目参考了FastSpeech2项目所提供的详细训练方法，用户可以根据官方文档进行调整。此外，项目还进行了部分优化，相关细节可以访问博客文章：基于FastSpeech2优化的中文语音合成。

项目背景

Chinese-FastSpeech2项目是由个人兴趣驱动的语音合成技术探索。项目完全开放，非常欢迎社区的批评、建议以及技术交流，让我们一起推动中文语音合成技术的发展！