xtts-webui - 用于使用 XTTS 并对其进行微调的 Webui

XTTS-WebUI 项目介绍

XTTS-WebUI 是一个旨在充分利用 XTTS（跨模态文本到语音转换系统）的网络用户界面。该项目通过多种神经网络和工具的集成，大大提升了处理结果的质量，并为用户提供了定制和微调模型的选项，从而生成高质量的语音模型。

便携版本
XTTS-WebUI 现已提供便携版本，这意味着用户无需安装所有依赖项即可使用。只需 Windows 操作系统和拥有 6 GB 视频内存的 Nvidia 显卡即可运行。
多功能语言支持
项目已提供多种语言的说明文档，包括英文、俄文和葡萄牙文，方便不同语言的用户获取帮助。
主要功能
- 简化了 XTTSv2 的使用流程。
- 提供批处理，适用于大批音频文件配音。
- 支持音频翻译并保留原声。
- 集成神经网络和音频工具，自动优化处理结果。
- 可方便地微调模型并立即使用。
- 提供多种工具如 RVC、OpenVoice、Resemble Enhance，可组合使用。
- 可自定义生成参数和说话样本。

XTTS-WebUI 可以通过 Google Colab 使用。请确保安装了 Python 3.10.x 或 3.11、CUDA 11.8 或 12.1、Microsoft Builder Tools 2019（包含 C++ 包）和 ffmpeg。

Windows 操作系统：

Linux 操作系统：

使用 pip 安装 PyTorch 和 torchaudio：

pip install torch==2.1.1+cu118 torchaudio==2.1.1+cu118 --index-url https://download.pytorch.org/whl/cu118

启动界面，请按以下步骤操作：

激活虚拟环境：

venv/scripts/activate

或在 Linux 下：

source venv/bin/activate

XTTS-WebUI 提供了多种选项和工具，简化了文本到语音转换的流程，提高了语音模型的质量和效果。通过不同模块的集成，用户可以更灵活地处理和优化音频数据，是一款功能强大的工具。