xtts2-ui 项目介绍
项目概述
xtts2-ui 是一个用于语音克隆的用户界面项目。利用该项目,用户只需输入文本和一个长度为10秒的目标语音音频样本,即可克隆出目标语音。该工具易于设置和使用,并且支持多种语言,还内置了语音录制和上传功能。需要注意的是,该项目的语音质量尚未达到最顶级的水平。
模型信息
xtts2-ui 使用的模型是 tts_models/multilingual/multi-dataset/xtts_v2
。详细信息可以参考 Hugging Face 上的 XTTS-v2 及其具体版本 XTTS-v2 Version 2.0.2。
项目设置步骤
要使用该项目,需依次完成以下步骤:
-
克隆代码仓库
- 在本地计算机上克隆项目代码。
git clone https://github.com/pbanuru/xtts2-ui.git cd xtts2-ui
-
创建虚拟环境
-
创建 Python 虚拟环境并激活。
- Windows 下使用命令:
venv\Scripts\activate
- Linux/Mac 下使用命令:
source venv/bin/activate
-
-
安装 PyTorch
- 选择合适的 PyTorch 安装命令,具体取决于是否有 CUDA 支持。若有 CUDA 支持,应先确认 CUDA 版本,然后使用相应的安装命令。
-
安装其他依赖包
- 安装项目所需的直接依赖包:
pip install -r requirements.txt
- 升级 TTS 包至最新版本:
pip install --upgrade TTS
完成上述步骤后,项目就可以开始使用。初次使用时,会自动下载所需模型。
如何运行
项目可以通过如下命令运行:
- 在终端中运行:
或使用 Streamlit:python app.py
streamlit run app2.py
- 也可以在终端提供输入文本运行,例如在
texts.json
中输入,并生成多个语音:python appTerminal.py
目标语音数据集
数据集包含一个名为 targets
的文件夹,其中预先填充了多个供测试的语音。若需要增加更多语音,可以创建一个 24KHz 的 WAV 文件,时长约为10秒,并将其放置在 targets
文件夹下。
示例音频
该项目支持多种语言,包括英语、俄语和阿拉伯语等,可通过以下链接试听各语言的样本音频:
支持语言
xtts2-ui 支持 16 种语言,包括阿拉伯语、中文、捷克语、荷兰语、英语、法语、德语、匈牙利语、意大利语、日语、韩语、波兰语、葡萄牙语、俄语、西班牙语和土耳其语。若需选择日语作为目标语言,还需安装相关字典。
致谢
xtts2-ui 项目受到了 kanttouchthis/text_generation_webui_xtts 的启发和支持。