XTTS-WebUI简介
XTTS-WebUI是一个基于XTTS (eXtended Text-To-Speech)技术的Web界面,旨在为用户提供强大而易用的文本转语音工具。它不仅集成了XTTS的核心功能,还结合了多种神经网络和音频处理工具,以提升语音合成的质量和灵活性。
主要特性
XTTS-WebUI具有以下几个主要特性:
- 简单易用的XTTSv2操作界面
- 支持批量处理,可以一次性为大量文件配音
- 能够翻译任何音频并保留原始声音特征
- 自动使用神经网络和音频工具改善生成结果
- 支持模型微调,可以立即使用微调后的模型
- 集成了RVC、OpenVoice、Resemble Enhance等工具,可单独或组合使用
- 可自定义XTTS生成参数,支持多个说话人样本
这些特性使XTTS-WebUI成为一个功能全面、灵活性高的文本转语音工具,能够满足不同用户的多样化需求。
安装指南
XTTS-WebUI提供了多种安装方式,用户可以根据自己的需求和技术水平选择合适的方法。
便携版
对于Windows用户,XTTS-WebUI提供了一个便携版本,无需安装任何依赖即可使用。用户只需下载便携版压缩包并解压,就可以直接运行程序。使用便携版的唯一要求是拥有Windows系统和至少6GB显存的NVIDIA显卡。
脚本安装
对于希望通过脚本快速安装的用户,XTTS-WebUI提供了针对Windows和Linux系统的安装脚本。
Windows安装步骤:
- 运行
install.bat
文件 - 运行
start_xtts_webui.bat
启动Web界面 - 在浏览器中打开控制台显示的本地地址
Linux安装步骤:
- 运行
install.sh
文件 - 运行
start_xtts_webui.sh
启动Web界面 - 在浏览器中打开控制台显示的本地地址
手动安装
对于希望更精细控制安装过程的用户,XTTS-WebUI也提供了手动安装的方法:
- 确保已安装CUDA
- 克隆仓库:
git clone https://github.com/daswer123/xtts-webui
- 进入项目目录:
cd xtts-webui
- 创建虚拟环境:
python -m venv venv
- 激活虚拟环境:
- Windows:
venv\scripts\activate
- Linux:
source venv\bin\activate
- Windows:
- 安装PyTorch和torchaudio:
pip install torch==2.1.1+cu118 torchaudio==2.1.1+cu118 --index-url https://download.pytorch.org/whl/cu118
- 安装其他依赖:
pip install -r requirements.txt
运行应用
安装完成后,用户可以通过以下步骤启动XTTS-WebUI:
- 激活虚拟环境
- 运行命令:
python xtts_webui.py
XTTS-WebUI提供了多个运行时参数,用户可以根据需要进行配置:
-hs, --host
: 指定绑定的主机地址(默认127.0.0.1)-p, --port
: 指定监听的端口号(默认8010)-d, --device
: 选择使用的设备(cpu或cuda)-sf, --speaker_folder
: 指定包含TTS样本的目录-o, --output
: 指定输出目录-l, --language
: 设置Web界面语言-ms, --model-source
: 定义模型来源-v, --version
: 指定使用的XTTS版本--lowvram
: 启用低显存模式--deepspeed
: 启用DeepSpeed加速--share
: 允许在本地计算机外部共享界面--rvc
: 启用RVC后处理
RVC集成
XTTS-WebUI集成了RVC(Real-time Voice Conversion)模块,用于对生成的音频进行后处理。要使用RVC功能,用户需要在启动时添加--rvc
标志,或将其写入启动文件。
使用RVC时,用户需要将RVC模型上传到voice2voice/rvc
文件夹中。每个模型应包含模型文件和索引文件(可选),并放置在单独的文件夹中。
与官方WebUI的区别
XTTS-WebUI在多个方面对官方WebUI进行了改进和扩展:
数据处理
- 更新了faster-whisper到0.10.0版本,支持选择larger-v3模型
- 将输出文件夹移至主文件夹内的output文件夹
- 支持向现有数据集添加新数据,无需重新处理已有数据
- 启用了VAD(Voice Activity Detection)过滤
- 创建数据集后会生成一个指定数据集语言的文件,便于重启界面时保持语言一致
XTTS编码器微调
- 可选择XTTS的基础模型,重新训练时无需再次下载模型
- 支持选择自定义模型作为训练的基础模型,实现对已微调模型的再微调
- 一键获取模型的优化版本
- 可选择是否在优化模型后删除训练文件夹
- 优化模型时,示例参考音频会被移至输出文件夹
- 检查指定语言与数据集语言的一致性
推理
- 在模型检查过程中可自定义推理设置
其他改进
- 支持在步骤中断后重新加载数据
- 移除了日志显示,解决重启时的问题
- 将完成的结果复制到ready文件夹,便于作为标准模型使用
- 增加了对日语的支持
未来计划
XTTS-WebUI的开发团队计划在未来添加以下功能:
- 添加进度和错误信息的状态栏
- 将训练功能集成到标准界面中
- 添加流式处理功能以检查结果
- 开发新的文本处理方法用于配音
- 在批处理时支持自定义说话人
- 添加API接口
结语
XTTS-WebUI是一个功能强大、易于使用的文本转语音工具,它不仅继承了XTTS的核心功能,还通过集成多种先进技术大大提升了语音合成的质量和灵活性。无论是个人用户还是专业开发者,都能在XTTS-WebUI中找到满足需求的功能。随着持续的更新和改进,XTTS-WebUI有望成为文本转语音领域的领先工具之一。
🔗 项目链接: XTTS-WebUI GitHub仓库