项目介绍:SoftVC VITS 歌声转换分支
SoftVC VITS Singing Voice Conversion Fork,是一个开源项目,致力于实现实时语音转换和提升界面体验。它是 so-vits-svc
项目的一个分支,并在原基础上进行了一些改进。虽然该项目目前已不再更新,但仍然是语音转换领域的重要尝试之一。
项目特性
- 实时语音转换:该项目支持实时语音转换功能,用户可以实时对音频进行处理。
- 集成 QuickVC:部分集成了 QuickVC 的功能,提升了项目的模块化程度。
- 更准确的音高估计:采用 CREPE 进行音高估计,准确性更高。
- 图形用户界面(GUI)和命令行界面(CLI):提供易于使用的图形与命令行界面,方便用户操作。
- 训练效率提升:训练速度约为原来两倍,节省时间和资源。
- 便捷安装:仅需通过 pip 安装即可使用,自动下载预训练模型,无需额外安装
fairseq
。 - 代码格式化:整个代码库进行了黑、isort、autoflake 等工具的格式化处理。
维护现状与替代方案
该项目自2023年春便停止活跃维护,主要是由于技术的快速发展以及出现了众多替代方案,例如:
- RVC家族:如 IAHispano 的 Applio (MIT 许可证)、fumiama 的 RVC 以及原 RVC 项目。
- VCClient:提供网页 GUI 并支持实时转换,维护积极。
- fish-diffusion:尝试构建模块化系统,但维护不够活跃。
- yxlllc 的 DDSP-SVC:偶尔发布新版本。
- coqui-ai 的 TTS:尽管项目部分模块化,但已经不再维护。
此外,一些初创企业也探索并商业化了语音转换技术。
安装与使用
该项目提供三种安装方式:
- 一键安装:通过下载并运行
install.bat
文件,可以自动执行安装步骤。 - 手动安装(使用pipx):
- 安装
pipx
和so-vits-svc-fork
,并注入所需的 Python 包。
- 安装
- 手动安装(创建虚拟环境):
- 创建 Python 虚拟环境后,通过
pip
安装项目及所需依赖。
- 创建 Python 虚拟环境后,通过
用户可以使用图形界面启动实时语音转换,通过命令行进行实时推理,并使用提供的预训练模型进行文件转换。
训练
进行模型训练前需对数据集进行预处理,包括去除背景音乐、音频切割和手动分类等。项目支持通过 Google Colab 或 Paperspace 等云平台进行训练,也可以在本地使用超过10 GB 显存的 GPU 进行训练。
项目贡献者
该项目得以开展离不开多个杰出贡献者的参与,他们在代码、文档、调试、设计以及用户测试等多个方面提供了支持。