项目介绍:Chinese-FastSpeech2
Chinese-FastSpeech2项目致力于通过改进现有的语音合成技术,使得中文发音更加生动自然。这个项目主要基于FastSpeech2模型,并利用标贝中文标准女声数据进行了进一步训练。此外,项目还引入了韵律表征及韵律预测模块,大大提升了中文语音的节奏感和表现力。
更新内容(2023年4月2日)
项目在不断改进和更新中,以下是最近一次的更新内容:
- 新增韵律模型训练代码,代码位于项目中的BertProsody目录下。
- 加入了针对标贝数据的韵律模型数据预处理代码,尽管代码尚未完全整理,初步版本已在preprocessor/biaobei.py中实现。
样例展示
项目生成的音频样例可以在项目的samples目录中找到,用户可以通过这些样例体验模型生成的中文语音的效果。
模型文件
Chinese-FastSpeech2的核心架构是由FastSpeech2和HifiGAN构成的。此外,在输入阶段引入了中文文本的韵律向量,形成以下三个关键模型:fastspeech_model
、hifigan_model
、prosody_model
。模型文件可以通过指定的百度网盘链接下载,下载后按照以下目录结构放置:
8000.pth.tar
需放入output/ckpt/biaobei/
generator_universal.pth.tar
需放入hifigan/
best_model.pt
需放入transformer/prosody_model/
预测方法
项目提供了两种预测语音的方法:
-
命令行交互:运行
python synthesize_all.py
,用户可以在命令行中输入需要转换的文本,程序会在当前工作目录下生成名为tmp.wav
的音频文件。 -
API接口调用:运行
tts_server.py
,启动语音接口服务器。用户可以参考TestServer.py
来调用此接口,生成的音频文件同样会保存为tmp.wav
,位于当前工作目录下。
训练方法
为了方便用户进行自定义训练,项目参考了FastSpeech2项目所提供的详细训练方法,用户可以根据官方文档进行调整。此外,项目还进行了部分优化,相关细节可以访问博客文章:基于FastSpeech2优化的中文语音合成。
项目背景
Chinese-FastSpeech2项目是由个人兴趣驱动的语音合成技术探索。项目完全开放,非常欢迎社区的批评、建议以及技术交流,让我们一起推动中文语音合成技术的发展!