so-vits-svc 项目介绍
so-vits-svc 是一个开源的歌声转换项目,旨在实现将一个人的歌声转换为另一个人的歌声。该项目基于 SoftVC 内容编码器和 VITS 声码器,能够保留原始音频的音高和语调,实现高质量的歌声转换。
项目特点
- 使用 SoftVC 内容编码器提取语音特征,无需转换为文本中间表示
- 采用 VITS 作为声码器,并使用 NSF HiFiGAN 解决声音断续问题
- 支持多种语音编码器选项,如 ContentVec、HuBERT、Whisper 等
- 提供浅层扩散模型,可进一步提升音质
- 支持静态/动态声音融合
- 支持响度嵌入
- 集成了 RVC 项目的特征检索功能
使用流程
-
准备数据集:将音频文件放入 dataset_raw 目录
-
数据预处理:
- 对音频进行切片
- 重采样为 44100Hz 单声道
- 自动分割训练集和验证集
- 生成 HuBERT 特征和 F0
-
模型训练:
- 训练 so-vits-svc 主模型
- 可选训练扩散模型
-
推理转换: 使用训练好的模型对新的音频进行歌声转换
注意事项
- 项目仅供学习交流使用,不得用于商业或非法用途
- 使用他人音频数据训练需获得授权,由此产生的问题由使用者承担
- 转换结果需明确标注原始音频来源
- 请遵守项目的使用条款和声明
so-vits-svc 为歌声转换提供了一个强大的开源框架,让更多人能够探索语音合成技术。项目仍在不断发展,欢迎感兴趣的开发者参与贡献。