MockingBird项目简介
MockingBird是一个开源的AI声音克隆项目,可以在5秒内克隆任意声音并生成语音内容。该项目基于PyTorch实现,支持中文和英文,可以在Windows、Linux和MacOS上运行。
项目特点
- 🌍 支持中文普通话,已在多个数据集上测试
- 🤩 基于PyTorch实现,支持GPU加速
- 🌍 可在Windows、Linux和MacOS上运行
- 🤩 只需训练合成器即可获得不错效果,可重用预训练编码器/声码器
- 🌍 提供Web服务器以支持远程调用
快速上手
1. 安装环境
- 安装PyTorch和ffmpeg
- 安装其他依赖:
pip install -r requirements.txt
- 可选:使用conda/mamba创建虚拟环境
2. 准备模型
- 下载预训练模型或自行训练
- 训练合成器模型
3. 启动使用
- Web服务器:
python web.py
- 工具箱:
python demo_toolbox.py
- 命令行:
python gen_voice.py <text_file.txt> your_wav_file.wav
学习资源
官方资料
视频教程
预训练模型
多位贡献者分享了预训练模型,可在项目页面找到下载链接。
参考论文
- Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis
- Tacotron: Towards End-to-End Speech Synthesis
常见问题
项目文档中还提供了详细的FAQ,解答了环境配置、训练技巧等常见问题。
通过以上资料,相信读者可以快速上手MockingBird项目,感受AI语音克隆的神奇魅力。欢迎访问项目GitHub获取更多信息!