vits_chinese - 基于BERT和VITS的高质量中文语音合成系统
vits_chinese是一个基于BERT和VITS,融合了微软自然语音特性的中文语音合成(TTS)系统。该项目旨在为中文TTS提供一个高质量、易用的开源实现,适合用于学习和研究。
项目特点
- 基于BERT的隐式韵律嵌入,能产生自然的语法停顿
- 使用NaturalSpeech的推理损失,减少音频错误
- 采用VITS框架,生成高质量音频
- 支持模块化蒸馏,加快推理速度
- 支持ONNX导出和流式推理
在线体验
项目提供了在线Demo,可以直接体验合成效果:
安装使用
- 克隆项目并安装依赖:
git clone https://github.com/PlayVoice/vits_chinese.git
cd vits_chinese
pip install -r requirements.txt
- 编译MAS对齐模块:
cd monotonic_align
python setup.py build_ext --inplace
- 下载预训练模型:
从Release页面下载prosody_model.pt
和vits_bert_model.pth
,放到对应目录。
- 推理:
python vits_infer.py --config ./configs/bert_vits.json --model vits_bert_model.pth
训练自己的模型
项目提供了完整的训练流程,包括:
- 数据准备
- 特征提取
- 模型训练
- 推理测试
具体步骤可参考项目README。
进阶使用
- 支持流式推理
- 支持ONNX导出
- 提供模型压缩方法
- 多说话人训练
更多资源
vits_chinese为中文TTS研究提供了一个优秀的开源实现,欢迎感兴趣的开发者和研究者尝试使用,为项目贡献代码,共同推动中文语音合成技术的发展。