xtts2-ui - 多语言支持的文字转语音克隆工具

xtts2-ui 项目介绍

xtts2-ui 是一个用于语音克隆的用户界面项目。利用该项目，用户只需输入文本和一个长度为10秒的目标语音音频样本，即可克隆出目标语音。该工具易于设置和使用，并且支持多种语言，还内置了语音录制和上传功能。需要注意的是，该项目的语音质量尚未达到最顶级的水平。

xtts2-ui 使用的模型是 tts_models/multilingual/multi-dataset/xtts_v2。详细信息可以参考 Hugging Face 上的 XTTS-v2 及其具体版本 XTTS-v2 Version 2.0.2。

要使用该项目，需依次完成以下步骤：

克隆代码仓库

git clone https://github.com/pbanuru/xtts2-ui.git
cd xtts2-ui

创建虚拟环境
- 创建 Python 虚拟环境并激活。
  - Windows 下使用命令：
```
venv\Scripts\activate
```
  - Linux/Mac 下使用命令：
```
source venv/bin/activate
```
安装 PyTorch
- 选择合适的 PyTorch 安装命令，具体取决于是否有 CUDA 支持。若有 CUDA 支持，应先确认 CUDA 版本，然后使用相应的安装命令。
安装其他依赖包
- 安装项目所需的直接依赖包：
```
pip install -r requirements.txt
```
- 升级 TTS 包至最新版本：
```
pip install --upgrade TTS
```