VITS快速微调
本仓库将指导您在不到1小时内将自己的角色声音,甚至您自己的声音添加到现有的VITS TTS模型中,使其能够执行以下任务:
- 在您添加的任何角色和模型中预设的角色之间进行多对多的语音转换。
- 使用您添加的角色和预设角色进行英语、日语和中文的文本到语音合成。
中文和日文: 作者:SayaSS
仅中文:(无运行的Hugging Face空间)作者:Wwwwhy230825
目前支持的任务:
- 从10多个短音频中克隆角色声音
- 从长度≥3分钟的长音频中克隆角色声音(一个音频应只包含单个说话者)
- 从长度≥3分钟的视频中克隆角色声音(一个视频应只包含单个说话者)
- 从哔哩哔哩视频链接中克隆角色声音(一个视频应只包含单个说话者)
目前支持TTS和VC的角色:
- 只要您有他们的声音,任何您想要的角色都可以! (请注意,语音转换只能在模型中的任意两个说话者之间进行)
微调
本地训练指南请参见LOCAL.md。 或者,您可以在Google Colab上进行微调。
需要多长时间?
- 安装依赖项(3分钟)
- 选择预训练模型开始。它们之间的详细区别在Colab笔记本中有描述。
- 上传您想添加的角色的语音样本,详细上传选项请参见DATA.MD。
- 开始微调。所需时间从20分钟到2小时不等,取决于您上传的声音数量。
推理或使用(目前仅支持Windows)
- 记得下载您微调后的模型!
- 下载最新版本
- 将您的模型和配置文件放入
inference
文件夹,分别命名为G_latest.pth
和finetune_speaker.json
。 - 文件结构应如下所示:
inference
├───inference.exe
├───...
├───finetune_speaker.json
└───G_latest.pth
- 运行
inference.exe
,浏览器应自动弹出。 - 注意:您必须安装
ffmpeg
才能启用语音转换功能。
在MoeGoe中使用
- 准备下载的模型和配置文件,分别命名为
G_latest.pth
和moegoe_config.json
。 - 按照MoeGoe页面的说明进行安装、配置路径和使用。