Voice Cloning App 项目介绍
项目概述
Voice Cloning App 是一个基于 Python 和 Pytorch 的应用程序,旨在轻松合成人类语音。通过这款应用,用户可以从录音、字幕以及有声书中自动生成数据集,从而训练和生成高质量的语音克隆效果。
主要功能
- 自动数据集生成:支持从字幕和有声书中创建数据集。
- 多语言支持:不仅限于一种语言,各种语言的语音合成需求都能得到满足。
- 本地和远程训练:用户可以选择在本地或远程环境中进行语音模型的训练。
- 简便的训练管理:轻松开始和停止训练过程。
- 数据导入/导出:便捷地管理和迁移语音数据。
- 多GPU支持:充分利用多GPU系统的强大计算能力。
系统需求
- 操作系统:Windows 10 或 Ubuntu 20.04 及以上版本
- 硬盘空间:至少需要 5GB
- 图形处理器:建议使用至少4GB显存的NVIDIA GPU,且驱动版本需为 456.38 及以上(可选)
项目资源
操作指南
未来改进方向
- 增加对 Talknet 的支持
- 为 Hifi-gan 添加 GTA 对齐功能
- 改进批量大小估算
- 支持 AMD GPU
其他资源
致谢
该项目使用了经过改进的 Tacotron2,并符合 NVIDIA 的 BSD-3 许可要求。此外,还集成了 DSAlign、Silero、DeepSpeech 和 hifi-gan 等多个工具。感谢 Queen's University Belfast 的 Dr. John Bustard 对本项目的支持,以及 uberduck.ai 提供的模型托管支持。同时,也要感谢 VocalSynthesis subreddit 社区和其他贡献者的反馈和支持。