Multi-Tacotron Voice Cloning 项目介绍
项目背景
Multi-Tacotron Voice Cloning 是一个多语种(俄语-英语)的语音克隆项目,基于开源项目 Real-Time-Voice-Cloning 开发。这一项目的大多数工作基于深度学习,旨在从短暂的音频片段中创建语音的数字表示,并通过这些表示生成语音合成模型。
项目特色
Multi-Tacotron 采用四阶段的深度学习框架,这个框架由四个不同的神经网络组成,旨在高效地进行语音克隆。具体来说,它可以从几秒钟的语音中提取特征,并生成一个可以用于文本转语音合成的模型。
快速上手
如果你对 Multi-Tacotron 感兴趣,可以通过在线演示快速体验。同时,项目对硬件的要求是需要一块 GPU,但如果只是试用工具箱,并不需要高性能的 GPU。
基础要求
- Python 版本:需要 3.6 或更高版本。
- PyTorch:需要 1.0.1 或更高版本。
要安装必要的包,可以运行命令 pip install -r requirements.txt
。
预训练模型
提供了预训练模型,可以下载使用。
数据集
项目采用了多个数据集来支持其多语种处理能力,以下是一些主要数据集:
- Phoneme Dictionary (音素字典):包括英语和俄语的音素字典。
- LibriSpeech:一个大型的英语语音数据集,包含300位发言者的360小时清晰语音。
- VoxCeleb:包含7000位发言者,包含各种质量较差的语音文件。
- M-AILABS:一个俄语数据集,包含来自3位发言者的46小时清晰语音。
工具箱
你可以尝试运行以下命令来使用项目的工具箱:
python demo_toolbox.py -d <datasets_root>
或简单运行:
python demo_toolbox.py
相关文档和训练指南
联系方式
如有任何问题,可以通过邮箱 niw9102@gmail.com 联系项目维护者。
实现的论文
项目中实现并参考了一些重要论文,包括:
- Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis
- Efficient Neural Audio Synthesis
- Natural TTS Synthesis by Conditioning Wavenet on Mel Spectrogram Predictions
- Generalized End-To-End Loss for Speaker Verification
通过这些前沿的技术与研究,Multi-Tacotron Voice Cloning 力求提供高效、准确的语音克隆解决方案。