FCH-TTS学习资料汇总 - 快速高质量并行语音合成模型
FCH-TTS是一个快速、可控、高质量的非自回归文本到语音(TTS)合成模型,支持英语、中文、日语、韩语、俄语和藏语等多种语言。本文汇总了FCH-TTS的相关学习资料,帮助读者快速了解和使用该项目。
项目介绍
FCH-TTS是由GitHub用户atomicoo开发的开源TTS项目,其主要特点包括:
- 采用并行非自回归架构,合成速度快
- 支持多种语言:英语、中文、日语、韩语、俄语、藏语等
- 合成音质高,接近自然语音
- 提供预训练模型,易于使用
- 支持自定义训练
项目地址: https://github.com/atomicoo/FCH-TTS
快速开始
- 克隆仓库:
git clone https://github.com/atomicoo/ParallelTTS.git
- 安装依赖:
conda create -n ParallelTTS python=3.7.9
conda activate ParallelTTS
pip install -r requirements.txt
- 语音合成:
python synthesize.py \
--checkpoint ./pretrained/ljspeech-parallel-epoch0100.pth \
--melgan_checkpoint ./pretrained/ljspeech-melgan-epoch3200.pth \
--input_texts ./samples/english/synthesize.txt \
--outputs_dir ./outputs/
模型训练
FCH-TTS的训练分为以下几个步骤:
- 准备数据集
- 训练对齐模型
- 提取持续时间
- 训练合成模型
详细的训练步骤可参考项目README。
相关资源
支持的数据集
FCH-TTS支持多个公开数据集,包括:
参考资料
FCH-TTS借鉴了多个开源项目,包括:
更多详细信息请参考项目README。
FCH-TTS为快速掌握高质量TTS技术提供了便利,欢迎感兴趣的读者尝试使用和贡献代码。如有问题可通过Issues或邮件(atomicoo95@gmail.com)与作者交流。