基于VITS的端到端歌声转换变分推理与对抗学习

GitHub Repo stars GitHub forks GitHub issues GitHub

英文文档

bigvgan-mix-v2 分支音频质量较好

RoFormer-HiFTNet 分支推理速度较快

不再更新

本项目面向深度学习初学者，需要具备Python和PyTorch的基础知识；
本项目旨在帮助深度学习初学者摆脱枯燥的纯理论学习，通过实践掌握深度学习的基础知识；
本项目不支持实时语音转换；（如需实时语音转换，需要替换whisper）
本项目不会为其他目的开发一键包；

vits-5.0-frame

训练至少需要6GB显存
支持多说话人
通过说话人混合创建独特说话人
甚至可以转换带有轻伴奏的声音
可以使用Excel编辑F0

https://github.com/PlayVoice/so-vits-svc-5.0/assets/16432329/6a09805e-ab93-47fe-9a14-9cbc1e0e7c3a

由@ShadowVap提供支持

模型特性

特性	来源	状态	功能
whisper	OpenAI	✅	强抗噪能力
bigvgan	NVIDA	✅	别名和蛇形
natural speech	Microsoft	✅	减少发音错误
neural source-filter	Xin Wang	✅	解决音频F0不连续问题
pitch quantization	Xin Wang	✅	量化F0用于嵌入
speaker encoder	Google	✅	音色编码和聚类
GRL for speaker	Ubisoft	✅	防止编码器泄漏音色
SNAC	Samsung	✅	VITS的一次性克隆
SCLN	Microsoft	✅	改进克隆
Diffusion	HuaWei	✅	提高音质
PPG perturbation	本项目	✅	提高抗噪能力和去音色
HuBERT perturbation	本项目	✅	提高抗噪能力和去音色
VAE perturbation	本项目	✅	提高音质
MIX encoder	本项目	✅	提高转换稳定性
USP infer	本项目	✅	提高转换稳定性
HiFTNet	哥伦比亚大学	✅	NSF-iSTFTNet加速推理
RoFormer	追一科技	✅	旋转位置嵌入

由于使用了数据扰动，训练时间比其他项目更长。

USP : 推理时的无声和静音带音高 vits_svc_usp

为什么要混合

mix_frame

插件式扩散

plug-in-diffusion

环境设置

安装 PyTorch。
安装项目依赖
```
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -r requirements.txt
```
注意：whisper已经内置，不要再次安装，否则会导致冲突和错误
下载音色编码器：Speaker-Encoder by @mueller91，将 best_model.pth.tar 放入 speaker_pretrain/。
下载whisper模型 whisper-large-v2。确保下载 large-v2.pt，将其放入 whisper_pretrain/。
下载 hubert_soft 模型，将 hubert-soft-0d54a1f4.pt 放入 hubert_pretrain/。
下载音高提取器 crepe full，将 full.pth 放入 crepe/assets。

注意：crepe full.pth 大小为84.9 MB，而不是6kb

下载预训练模型 sovits5.0.pretrain.pth，并将其放入 vits_pretrain/。

python svc_inference.py --config configs/base.yaml --model ./vits_pretrain/sovits5.0.pretrain.pth --spk ./configs/singers/singer0001.npy --wave test.wav

数据集准备

必要的预处理：

使用 UVR 分离人声和伴奏（如果没有伴奏则跳过）
使用 slicer 将音频输入切割成更短的长度，whisper接受小于30秒的输入。
手动检查生成的音频输入，删除短于2秒或有明显噪音的输入。
如有必要，调整音量，推荐使用Adobe Audition。
按照以下结构将数据集放入 dataset_raw 目录。

dataset_raw
├───speaker0
│   ├───000001.wav
│   ├───...
│   └───000xxx.wav
└───speaker1
    ├───000001.wav
    ├───...
    └───000xxx.wav

数据预处理

python svc_preprocessing.py -t 2

-t：线程数，最大数量不应超过CPU核心数，通常2就足够了。预处理完成后，你将得到以下结构的输出。

data_svc/
└── waves-16k
│    └── speaker0
│    │      ├── 000001.wav
│    │      └── 000xxx.wav
│    └── speaker1
│           ├── 000001.wav
│           └── 000xxx.wav
└── waves-32k
│    └── speaker0
│    │      ├── 000001.wav
│    │      └── 000xxx.wav
│    └── speaker1
│           ├── 000001.wav
│           └── 000xxx.wav
└── pitch
│    └── speaker0
│    │      ├── 000001.pit.npy
│    │      └── 000xxx.pit.npy
│    └── speaker1
│           ├── 000001.pit.npy
│           └── 000xxx.pit.npy
└── hubert
│    └── speaker0
│    │      ├── 000001.vec.npy
│    │      └── 000xxx.vec.npy
│    └── speaker1
│           ├── 000001.vec.npy
│           └── 000xxx.vec.npy
└── whisper
│    └── speaker0
│    │      ├── 000001.ppg.npy
│    │      └── 000xxx.ppg.npy
│    └── speaker1
│           ├── 000001.ppg.npy
│           └── 000xxx.ppg.npy
└── speaker
│    └── speaker0
│    │      ├── 000001.spk.npy
│    │      └── 000xxx.spk.npy
│    └── speaker1
│           ├── 000001.spk.npy
│           └── 000xxx.spk.npy
└── singer
│   ├── speaker0.spk.npy
│   └── speaker1.spk.npy
|
└── indexes
    ├── speaker0
    │   ├── some_prefix_hubert.index
    │   └── some_prefix_whisper.index
    └── speaker1
        ├── hubert.index
        └── whisper.index

重采样

在 ./data_svc/waves-16k 中生成采样率为 16000Hz 的音频

python prepare/preprocess_a.py -w ./dataset_raw -o ./data_svc/waves-16k -s 16000

在 ./data_svc/waves-32k 中生成采样率为 32000Hz 的音频

python prepare/preprocess_a.py -w ./dataset_raw -o ./data_svc/waves-32k -s 32000

使用 16K 音频提取音高

python prepare/preprocess_crepe.py -w data_svc/waves-16k/ -p data_svc/pitch

使用 16K 音频提取 ppg

python prepare/preprocess_ppg.py -w data_svc/waves-16k/ -p data_svc/whisper

使用 16K 音频提取 hubert

python prepare/preprocess_hubert.py -w data_svc/waves-16k/ -v data_svc/hubert

使用 16k 音频提取音色编码

python prepare/preprocess_speaker.py data_svc/waves-16k/ data_svc/speaker

提取音色编码的平均值用于推理；也可以替换生成训练索引中的单个音频音色，作为说话人的统一音色用于训练
```
python prepare/preprocess_speaker_ave.py data_svc/speaker/ data_svc/singer
```

使用 32k 音频提取线性谱

python prepare/preprocess_spec.py -w data_svc/waves-32k/ -s data_svc/specs

使用 32k 音频生成训练索引
```
python prepare/preprocess_train.py
```
训练文件调试
```
python prepare/preprocess_zzz.py
```

训练

如果基于预训练模型进行微调，需要下载预训练模型：sovits5.0.pretrain.pth。将预训练模型放在项目根目录下，修改 configs/base.yaml 中的这一行
```
pretrain: "./vits_pretrain/sovits5.0.pretrain.pth"
```
并适当调整学习率，例如 5e-5。

batch_size：对于 6G 显存的 GPU，推荐值为 6，8 也可以工作但步骤速度会慢很多。

开始训练

python svc_trainer.py -c configs/base.yaml -n sovits5.0

恢复训练

python svc_trainer.py -c configs/base.yaml -n sovits5.0 -p chkpt/sovits5.0/sovits5.0_***.pt

日志可视化
```
tensorboard --logdir logs/
```

sovits5 0_base

sovits_spec

推理

导出推理模型：文本编码器、Flow 网络、解码器网络

python svc_export.py --config configs/base.yaml --checkpoint_path chkpt/sovits5.0/***.pt

推理

如果不需要调整 f0，只需运行以下命令。

python svc_inference.py --config configs/base.yaml --model sovits5.0.pth --spk ./data_svc/singer/your_singer.spk.npy --wave test.wav --shift 0

如果需要手动调整 f0，请按以下步骤操作：

使用 whisper 提取内容编码，生成 test.vec.npy。

python whisper/inference.py -w test.wav -p test.ppg.npy

使用 hubert 提取内容向量，不使用一键推理，以减少 GPU 内存使用

python hubert/inference.py -w test.wav -v test.vec.npy

将 F0 参数提取为 csv 文本格式，在 Excel 中打开 csv 文件，根据 Audition 或 SonicVisualiser 手动修改错误的 F0

python pitch/inference.py -w test.wav -p test.csv

最终推理

python svc_inference.py --config configs/base.yaml --model sovits5.0.pth --spk ./data_svc/singer/your_singer.spk.npy --wave test.wav --ppg test.ppg.npy --vec test.vec.npy --pit test.csv --shift 0

注意事项
- 当指定 --ppg 时，同一音频多次推理时可以避免重复提取音频内容编码；如果不指定，将自动提取；
- 当指定 --vec 时，同一音频多次推理时可以避免重复提取音频内容编码；如果不指定，将自动提取；
- 当指定 --pit 时，可以加载手动调整后的 F0 参数；如果不指定，将自动提取；
- 在当前目录生成文件：svc_out.wav
参数参考

参数 --config --model --spk --wave --ppg --vec --pit --shift
名称配置路径模型路径说话人波形输入波形ppg 波形hubert 波形音高音高偏移
通过 vad 后处理

参数	--config	--model	--spk	--wave	--ppg	--vec	--pit	--shift
名称	配置路径	模型路径	说话人	波形输入	波形ppg	波形hubert	波形音高	音高偏移

python svc_inference_post.py --ref test.wav --svc svc_out.wav --out svc_out_post.wav

训练特征检索索引（可选）

为了提高生成音色的稳定性，可以使用 Retrieval-based-Voice-Conversion 仓库中描述的方法。该方法包括两个步骤：

对 hubert 和 whisper 特征训练检索索引使用默认设置运行训练：

python svc_train_retrieval.py

如果向量数量超过 200,000，将使用 MiniBatchKMeans 算法压缩到 10,000。您可以使用命令行选项更改这些设置：

usage: 创建特征检索的 faiss 索引 [-h] [--debug] [--prefix PREFIX] [--speakers SPEAKERS [SPEAKERS ...]] [--compress-features-after COMPRESS_FEATURES_AFTER]
                                                 [--n-clusters N_CLUSTERS] [--n-parallel N_PARALLEL]

选项：
  -h, --help            显示此帮助信息并退出
  --debug
  --prefix PREFIX       为索引文件名添加前缀
  --speakers SPEAKERS [SPEAKERS ...]
                        创建索引的说话人名称。默认为 data_svc 中的所有说话人
  --compress-features-after COMPRESS_FEATURES_AFTER
                        如果特征数量大于该值，则使用 MiniBatchKMeans 压缩特征向量。
  --n-clusters N_CLUSTERS
                        特征将被压缩到的中心点数量
  --n-parallel N_PARALLEL
                        MinibatchKmeans 的并行作业数。默认为 cpus-1

压缩训练向量可以加快索引推理速度，但会降低检索质量。只有在您确实有大量向量时才使用向量计数压缩。

生成的索引将存储在 "indexes" 文件夹中，如下所示：

data_svc
...
└── indexes
    ├── speaker0
    │   ├── some_prefix_hubert.index
    │   └── some_prefix_whisper.index
    └── speaker1
        ├── hubert.index
        └── whisper.index

在推理阶段，以一定比例添加 n 个最接近的特征到 vits 模型中使用以下设置启用特征检索：
```
python svc_inference.py --config configs/base.yaml --model sovits5.0.pth --spk ./data_svc/singer/your_singer.spk.npy --wave test.wav --shift 0 \
--enable-retrieval \
--retrieval-ratio 0.5 \
--n-retrieval-vectors 3
```
为了获得更好的检索效果，可以尝试循环使用不同的参数：--retrieval-ratio 和 --n-retrieval-vectors

如果您有多组索引，可以通过参数 --retrieval-index-prefix 指定特定的一组

您可以使用参数 --hubert-index-path 和 --whisper-index-path 明确指定 hubert 和 whisper 索引的路径

创建歌手

命名纯属巧合：average -> ave -> eva，eve(eva) 代表概念和繁衍

python svc_eva.py

eva_conf = {
    './configs/singers/singer0022.npy': 0,
    './configs/singers/singer0030.npy': 0,
    './configs/singers/singer0047.npy': 0.5,
    './configs/singers/singer0051.npy': 0.5,
}

生成的歌手文件将是 eva.spk.npy。

数据集

名称	链接
KiSing	http://shijt.site/index.php/2021/05/16/kising-the-first-open-source-mandarin-singing-voice-synthesis-corpus/
PopCS	https://github.com/MoonInTheRiver/DiffSinger/blob/master/resources/apply_form.md
opencpop	https://wenet.org.cn/opencpop/download/
Multi-Singer	https://github.com/Multi-Singer/Multi-Singer.github.io
M4Singer	https://github.com/M4Singer/M4Singer/blob/master/apply_form.md
CSD	https://zenodo.org/record/4785016#.YxqrTbaOMU4
KSS	https://www.kaggle.com/datasets/bryanpark/korean-single-speaker-speech-dataset
JVS MuSic	https://sites.google.com/site/shinnosuketakamichi/research-topics/jvs_music
PJS	https://sites.google.com/site/shinnosuketakamichi/research-topics/pjs_corpus
JUST Song	https://sites.google.com/site/shinnosuketakamichi/publication/jsut-song
MUSDB18	https://sigsep.github.io/datasets/musdb.html#musdb18-compressed-stems
DSD100	https://sigsep.github.io/datasets/dsd100.html
Aishell-3	http://www.aishelltech.com/aishell_3
VCTK	https://datashare.ed.ac.uk/handle/10283/2651
Korean Songs	http://urisori.co.kr/urisori-en/doku.php/