Chinese-FastSpeech2项目简介
Chinese-FastSpeech2是一个开源的中文语音合成项目,由GitHub用户Executedone开发。该项目基于标贝中文标准女声数据集进行训练,并对原始的FastSpeech2模型进行了改进,主要特点如下:
- 引入了韵律表征和韵律预测模块,使合成的中文语音更加生动自然,富有节奏感
- 采用FastSpeech2 + HifiGAN的架构,能够快速生成高质量的语音
- 支持中文文本到语音的转换
快速上手
要使用Chinese-FastSpeech2进行语音合成,您需要:
- 克隆项目代码:
git clone https://github.com/Executedone/Chinese-FastSpeech2.git
- 安装依赖:
pip install -r requirements.txt
- 下载预训练模型:
项目使用了3个预训练模型:fastspeech_model、hifigan_model和prosody_model。您可以从项目网盘链接(提取码:qgpi)下载这些模型文件,并将它们放入指定目录:
- 8000.pth.tar → output/ckpt/biaobei/
- generator_universal.pth.tar → hifigan/
- best_model.pt → transformer/prosody_model/
- 运行语音合成:
项目提供了两种使用方式:
- 交互式命令行:运行
python synthesize_all.py
,然后输入需要转换的文本 - API调用:运行
tts_server.py
启动服务,然后参考TestServer.py
调用接口
生成的音频文件默认保存为当前目录下的tmp.wav
。
深入学习
如果您想深入了解Chinese-FastSpeech2的工作原理或自定义训练,可以参考以下资源:
-
项目GitHub仓库:包含完整的源代码和文档
-
FastSpeech2原始论文:了解FastSpeech2的基本原理
-
基于FastSpeech2优化的中文语音合成:介绍了Chinese-FastSpeech2的改进之处
-
代码结构:
- BertProsody目录:韵律模型训练代码
- preprocessor/biaobei.py:韵律模型训练的数据预处理代码
- samples目录:生成的音频样例
-
自定义训练:参考
train.py
文件和原始FastSpeech2项目的训练方法
Chinese-FastSpeech2是一个非常有潜力的中文语音合成项目。无论您是语音合成领域的研究者,还是对中文TTS感兴趣的开发者,都可以从这个项目中获得启发。欢迎大家尝试使用,并为项目贡献自己的想法!