项目简介
Real-Time-Voice-Cloning是一个AI声音克隆模型,致力于创建一个高效的TTS系统,旨在为不同演讲者生成自然语音,特别解决了零镜头学习的挑战。这意味着利用几秒未转录的目标说话者音频,合成新的语音而不需要修改模型参数。这项技术对于可访问性应用具有巨大潜力,如帮助失去语音的用户进行自然交流,以及跨语言传输实现更自然的语音到语音翻译。并确保模型生成的声音能够轻易与真实声音区分开来,以防止滥用。Real-Time-Voice-Cloning的方法通过独立训练说话人特征空间并训练高质量TTS,解耦了说话者建模与语音合成,避免了对大量训练数据的依赖,使得这项技术更为可行和有效。
视频演示
设置
安装要求
- Windows 和 Linux 均受支持。建议使用 GPU 来进行训练和推理速度,但这不是强制性的。
- 推荐使用Python 3.7。Python 3.5 或更高版本应该可以工作,但您可能必须调整依赖项的版本。我建议使用 设置虚拟环境venv,但这是可选的。
- 安装ffmpeg。这是读取音频文件所必需的。
- 安装PyTorch。选择最新的稳定版本、您的操作系统、包管理器(默认为 pip),如果您有 GPU,最后选择任何建议的 CUDA 版本,否则选择 CPU。运行给定的命令。
- 安装其余要求
pip install -r requirements.txt
配置测试
在下载任何数据集之前,您可以通过以下方式开始测试您的配置:
demo_cli.py
如果所有测试都通过,那么您就可以开始使用了。
下载数据集
对于单独使用工具箱,我只建议下载LibriSpeech/train-clean-100。将内容提取到您选择的目录/LibriSpeech/train-clean-100中。工具箱支持其他数据集,请参阅 https://github.com/CorentinJ/Real-Time-Voice-Cloning/wiki/Training#datasets。您可以不下载任何数据集,但是您将需要自己的数据作为音频文件,或者您必须使用工具箱录制它。
启动工具箱
您可以尝试工具箱:
demo_toolbox.py -d
或者
demo_toolbox.py
取决于您是否下载了数据集。
项目链接
https://github.com/CorentinJ/Real-Time-Voice-Cloning
关注「开源AI项目落地」公众号