多语言Tacotron语音克隆
该代码库是基于Real-Time-Voice-Cloning的多语言(俄英)语音实现。它是一个四阶段深度学习框架,可以从几秒钟的音频中创建语音的数字表示,并使用它来控条件文字转语音模型。如果您只需要英文版本,请使用原始实现。
Этот репозиторий является многоязычной(русско-английской) фонемной реализацией, основанной на Real-Time-Voice-Cloning. Она состоит из четырёх нейронных сетей, которые позволяют создавать числовое представление голоса из нескольких секунд звука и использовать его для создания модели преобразования текста в речь。
示例
快速开始
要求
无论您是计划只使用工具箱还是重新训练模型,都需要以下内容。
≥Python 3.6。
PyTorch (≥1.0.1)。
运行pip install -r requirements.txt
来安装必要的软件包。
需要一块GPU,但如果只想使用工具箱,不一定需要高端GPU。
预训练模型
下载最新模型这里。
数据集
名称 | 语言 | 链接 | 评论 | 我的链接 | 备注 |
---|---|---|---|---|---|
音素字典 | 英,俄 | En,Ru | 音素字典 | link | 合并了俄语和英语音素字典 |
LibriSpeech | 英 | link | 300位说话者,360小时干净语音 | ||
VoxCeleb | 英 | link | 7000位说话者,许多小时质量不好的语音 | ||
M-AILABS | 俄 | link | 3位说话者,46小时干净语音 | ||
open_tts, open_stt | 俄 | open_tts, open_stt | 许多说话者,许多小时质量不好的语音 | link | 清理了4小时一个说话者的语音。修正了注释,分成了每段不超过7秒的片段 |
Voxforge+audiobook | 俄 | link | 多个说话者,25小时各种质量语音 | link | 选择了质量好的文件。分成了每段不超过7秒的片段。增加了网上的有声书。得到了200位说话者,每人几分钟 |
RUSLAN | 俄 | link | 一个说话者,40小时质量好的语音 | link | 转码为16kHz |
Mozilla | 俄 | link | 50位说话者,30小时质量好的语音 | link | 转码为16kHz,分成了不同用户的文件夹 |
Russian Single | 俄 | link | 一个说话者,9小时质量好的语音 | link | 转码为16kHz |
工具箱
然后你可以尝试工具箱:
python demo_toolbox.py -d <datasets_root>
或
python demo_toolbox.py
维基
贡献
如有任何问题,请发送电子邮件给我
实现的论文
URL | 设计 | 标题 | 实现来源 |
---|---|---|---|
1806.04558 | SV2TTS | 从说话者验证到多说话者文本到语音合成的迁移学习 | CorentinJ |
1802.08435 | WaveRNN(声码器) | 高效神经音频合成 | fatchord/WaveRNN |
1712.05884 | Tacotron 2(合成器) | 通过对Mel谱预测的WaveNet条件进行自然TTS合成 | Rayhane-mamah/Tacotron-2 |
1710.10467 | GE2E(编码器) | 广义端到端说话者验证损失 | CorentinJ |