VoiceSmith 项目介绍
VoiceSmith 是一个旨在简化语音模型训练与推理的工具,无需编程经验也能实现单人或多人语音模型的训练和推理。它基于改进版的 DelightfulTTS 和 UnivNet,通过精细调整形成一个稳固的文本到语音转换流程,并支持用户上传的数据集。两个模型都在一个拥有 5000 名说话者的专有数据集上进行了预训练。此外,VoiceSmith 还提供了一些数据集预处理工具,如自动文本规范化。
如果您对早期版本的软件感兴趣,可以点击这里查看一个基于高度情感化的 60 名说话者数据集训练出的模型。
系统要求
硬件要求
- 操作系统:支持 Windows(当前仅支持 CPU)或任何基于 Linux 的操作系统。如果想在 macOS 上运行,需要按照“从源代码构建”的步骤自行创建安装程序,但未经过测试。
- 图形处理器:强烈推荐支持 CUDA 的 NVIDIA GPU,尽管可以在 CPU 上训练,但耗时可能会是以天甚至周为单位。
- 内存:至少 8GB 内存,可以尝试在更少的内存下运行,但可能会不成功。
软件要求
- Docker:点击下载。如果使用的是 Linux,建议安装 Docker Engine,因为 Docker Desktop 可能会增加复杂性。
安装流程
- 从发布页面下载最新的安装程序。
- 双击以运行安装程序。
开发流程
- 确保已安装最新版本的 Node.js。
- 克隆项目库:
git clone https://github.com/dunky11/voicesmith
- 安装依赖,过程可能需要一分钟:
cd voicesmith npm install
- 点击这里,选择最新版本的文件夹,下载所有文件并将其置于项目库的 assets 文件夹中。
- 启动项目:
npm start
从源代码构建
- 按照上述步骤 1 - 4 进行操作。
- 运行 make 命令,这将创建一个包含安装程序的 out/make 文件夹,安装程序会根据操作系统的不同而有所不同。
npm make
项目架构
VoiceSmith 当前使用一个由修改过的 DelightfulTTS 和 UnivNet 组成的两阶段管道。
贡献指南
通过为项目加星来展示您的支持。我们欢迎各种形式的 pull request。
许可证
此项目根据 Apache-2.0 许可证授权,详情请查看 LICENSE.md 文件。