XTTS-WebUI: 强大的文本转语音工具

Ray

xtts-webui

XTTS-WebUI简介

XTTS-WebUI是一个基于XTTS (eXtended Text-To-Speech)技术的Web界面,旨在为用户提供强大而易用的文本转语音工具。它不仅集成了XTTS的核心功能,还结合了多种神经网络和音频处理工具,以提升语音合成的质量和灵活性。

XTTS-WebUI界面

主要特性

XTTS-WebUI具有以下几个主要特性:

  1. 简单易用的XTTSv2操作界面
  2. 支持批量处理,可以一次性为大量文件配音
  3. 能够翻译任何音频并保留原始声音特征
  4. 自动使用神经网络和音频工具改善生成结果
  5. 支持模型微调,可以立即使用微调后的模型
  6. 集成了RVC、OpenVoice、Resemble Enhance等工具,可单独或组合使用
  7. 可自定义XTTS生成参数,支持多个说话人样本

这些特性使XTTS-WebUI成为一个功能全面、灵活性高的文本转语音工具,能够满足不同用户的多样化需求。

安装指南

XTTS-WebUI提供了多种安装方式,用户可以根据自己的需求和技术水平选择合适的方法。

便携版

对于Windows用户,XTTS-WebUI提供了一个便携版本,无需安装任何依赖即可使用。用户只需下载便携版压缩包并解压,就可以直接运行程序。使用便携版的唯一要求是拥有Windows系统和至少6GB显存的NVIDIA显卡。

脚本安装

对于希望通过脚本快速安装的用户,XTTS-WebUI提供了针对Windows和Linux系统的安装脚本。

Windows安装步骤:

  1. 运行install.bat文件
  2. 运行start_xtts_webui.bat启动Web界面
  3. 在浏览器中打开控制台显示的本地地址

Linux安装步骤:

  1. 运行install.sh文件
  2. 运行start_xtts_webui.sh启动Web界面
  3. 在浏览器中打开控制台显示的本地地址

手动安装

对于希望更精细控制安装过程的用户,XTTS-WebUI也提供了手动安装的方法:

  1. 确保已安装CUDA
  2. 克隆仓库: git clone https://github.com/daswer123/xtts-webui
  3. 进入项目目录: cd xtts-webui
  4. 创建虚拟环境: python -m venv venv
  5. 激活虚拟环境:
    • Windows: venv\scripts\activate
    • Linux: source venv\bin\activate
  6. 安装PyTorch和torchaudio:
    pip install torch==2.1.1+cu118 torchaudio==2.1.1+cu118 --index-url https://download.pytorch.org/whl/cu118
    
  7. 安装其他依赖:
    pip install -r requirements.txt
    

运行应用

安装完成后,用户可以通过以下步骤启动XTTS-WebUI:

  1. 激活虚拟环境
  2. 运行命令: python xtts_webui.py

XTTS-WebUI提供了多个运行时参数,用户可以根据需要进行配置:

  • -hs, --host: 指定绑定的主机地址(默认127.0.0.1)
  • -p, --port: 指定监听的端口号(默认8010)
  • -d, --device: 选择使用的设备(cpu或cuda)
  • -sf, --speaker_folder: 指定包含TTS样本的目录
  • -o, --output: 指定输出目录
  • -l, --language: 设置Web界面语言
  • -ms, --model-source: 定义模型来源
  • -v, --version: 指定使用的XTTS版本
  • --lowvram: 启用低显存模式
  • --deepspeed: 启用DeepSpeed加速
  • --share: 允许在本地计算机外部共享界面
  • --rvc: 启用RVC后处理

RVC集成

XTTS-WebUI集成了RVC(Real-time Voice Conversion)模块,用于对生成的音频进行后处理。要使用RVC功能,用户需要在启动时添加--rvc标志,或将其写入启动文件。

使用RVC时,用户需要将RVC模型上传到voice2voice/rvc文件夹中。每个模型应包含模型文件和索引文件(可选),并放置在单独的文件夹中。

与官方WebUI的区别

XTTS-WebUI在多个方面对官方WebUI进行了改进和扩展:

数据处理

  1. 更新了faster-whisper到0.10.0版本,支持选择larger-v3模型
  2. 将输出文件夹移至主文件夹内的output文件夹
  3. 支持向现有数据集添加新数据,无需重新处理已有数据
  4. 启用了VAD(Voice Activity Detection)过滤
  5. 创建数据集后会生成一个指定数据集语言的文件,便于重启界面时保持语言一致

XTTS编码器微调

  1. 可选择XTTS的基础模型,重新训练时无需再次下载模型
  2. 支持选择自定义模型作为训练的基础模型,实现对已微调模型的再微调
  3. 一键获取模型的优化版本
  4. 可选择是否在优化模型后删除训练文件夹
  5. 优化模型时,示例参考音频会被移至输出文件夹
  6. 检查指定语言与数据集语言的一致性

推理

  1. 在模型检查过程中可自定义推理设置

其他改进

  1. 支持在步骤中断后重新加载数据
  2. 移除了日志显示,解决重启时的问题
  3. 将完成的结果复制到ready文件夹,便于作为标准模型使用
  4. 增加了对日语的支持

未来计划

XTTS-WebUI的开发团队计划在未来添加以下功能:

  • 添加进度和错误信息的状态栏
  • 将训练功能集成到标准界面中
  • 添加流式处理功能以检查结果
  • 开发新的文本处理方法用于配音
  • 在批处理时支持自定义说话人
  • 添加API接口

结语

XTTS-WebUI是一个功能强大、易于使用的文本转语音工具,它不仅继承了XTTS的核心功能,还通过集成多种先进技术大大提升了语音合成的质量和灵活性。无论是个人用户还是专业开发者,都能在XTTS-WebUI中找到满足需求的功能。随着持续的更新和改进,XTTS-WebUI有望成为文本转语音领域的领先工具之一。

🔗 项目链接: XTTS-WebUI GitHub仓库

avatar
0
0
0
最新项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号