PortaSpeech项目简介
PortaSpeech是一个便携且高质量的生成式文本转语音(TTS)模型,由Yi Ren等人于2021年提出。该模型旨在生成具有自然细节和丰富韵律的多样化语音,同时保持轻量级的架构设计。
PortaSpeech的主要特点包括:
- 采用轻量级VAE和增强的先验,后接具有强条件输入的基于流的后网络作为主要架构
- 引入分组参数共享机制,进一步压缩模型大小和内存占用
- 提出结合硬词间对齐和软词内对齐的混合对齐语言编码器,显式提取词级语义信息
实验结果表明,PortaSpeech在语音质量和韵律建模方面均优于其他TTS模型,且在将模型参数减少到6.7M时仍能保持较好的性能。
项目代码与资源
PortaSpeech的PyTorch实现代码已开源在GitHub上:
- 代码仓库: https://github.com/keonlee9420/PortaSpeech
- 音频样本: /demo
- 预训练模型: Google Drive
快速上手
- 安装依赖:
pip3 install -r requirements.txt
-
下载预训练模型并放入
output/ckpt/DATASET/
目录 -
单说话人TTS推理:
python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step RESTORE_STEP --mode single --dataset DATASET
生成的语音将保存在output/result/
目录下。
训练自己的模型
- 数据预处理:
python3 prepare_align.py --dataset DATASET
python3 preprocess.py --dataset DATASET
- 训练模型:
python3 train.py --dataset DATASET
- 使用TensorBoard可视化训练过程:
tensorboard --logdir output/log
相关论文
参考项目
希望这篇资源汇总能帮助你快速了解和上手PortaSpeech项目。如果你对该项目感兴趣,可以访问上述链接获取更多详细信息。