StyleTTS简介
StyleTTS是由Yinghao Aaron Li、Cong Han和Nima Mesgarani开发的一个基于风格的文本转语音(TTS)生成模型。它能够从参考语音中合成具有自然韵律的多样化语音,在单发音人和多发音人数据集上的主观测试中显著优于现有最先进的模型。
StyleTTS的主要特点包括:
- 使用新型的可转移单调对齐器(TMA)和持续时间不变数据增强方案
- 通过对说话风格的自监督学习,可以合成与任何给定参考语音具有相同韵律和情感基调的语音
- 无需显式标记韵律和情感类别
相关资源
🔗 GitHub仓库
📄 论文
🔊 音频样本
安装使用
-
环境要求:Python >= 3.7
-
克隆代码仓库:
git clone https://github.com/yl4579/StyleTTS.git
cd StyleTTS
- 安装依赖:
pip install SoundFile torchaudio munch torch pydub pyyaml librosa git+https://github.com/resemble-ai/monotonic_align.git
- 下载并准备数据集(如LJSpeech),上采样至24kHz
模型训练
训练分为两个阶段:
# 第一阶段训练
python train_first.py --config_path ./Configs/config.yml
# 第二阶段训练
python train_second.py --config_path ./Configs/config.yml
模型会以"epoch_1st_%05d.pth"和"epoch_2nd_%05d.pth"的格式保存。
推理测试
请参考inference.ipynb进行推理测试。
预训练模型下载链接:
将模型解压到Models
和Vocoder
文件夹下,并安装phonemizer库即可运行推理演示。
更多资源
- 文本对齐器和音高提取器模型位于
Utils
文件夹 - 可以自定义梅尔谱图预处理方法,但需要重新训练对应的文本对齐器和音高提取器
- 新的文本对齐器训练代码:AuxiliaryASR
- 新的音高提取器训练代码:PitchExtractor
StyleTTS为研究人员和开发者提供了一个强大的TTS框架,欢迎探索使用!如有任何问题,可以在GitHub仓库中提issue讨论。