vits_chinese - 基于BERT和VITS技术的文本到语音合成系统

vits_chinese 项目介绍

vits_chinese 是一个文本到语音合成（TTS）学习项目，基于 BERT 和 VITS 技术，并结合了一些微软的自然语音特性。本项目主要面向于是希望深入理解和研究 TTS 算法的开发者，而不是为直接生产使用而设计的解决方案。

要开始使用 vits_chinese，需要安装相应的依赖并完成一些基础配置。以下步骤概述了安装过程：

编译对齐模块：

cd monotonic_align
python setup.py build_ext --inplace

使用预训练模型进行推理：下载预训练模型后，运行以下命令进行语音合成：
```
python vits_infer.py --config ./configs/bert_vits.json --model vits_bert_model.pth
```

为了训练自己的模型，用户需要准备语料数据，并进行如下数据预处理：

数据采样率转换：

python vits_resample.py -w [input path]:[./data/Wave/] -o ./data/waves -s 16000

模型训练：

python train.py -c configs/bert_vits.json -m bert_vits

项目主要用于TTS技术的学习与研究，适合对TTS合成语音的工程技术感兴趣的开发者和研究人员，通过对这些技术的学习，实现更高质量和更自然的语音合成。

vits_chinese 项目汇集了多个开源项目和研究成果，感谢所有贡献者的努力，使得这个项目得以实现。从资料下载到模型优化，整个项目都开放给社区开发者进行二次开发和试验。

vits_chinese 是一个功能强大且灵活的 TTS 学习工具，凭借最新的技术框架和开放的学习资源，使研究者和开发者能够探索和掌握文本到语音合成的种种可能性。未来的开发者可在此基础上开发出更高效、更具表现力的语音合成系统。