GenerSpeech简介
GenerSpeech是一个面向域外(Out-of-Domain, OOD)自定义语音的高保真零样本风格迁移文本转语音(TTS)模型。该项目由浙江大学和Sea AI Lab的研究人员在NeurIPS 2022会议上提出,旨在解决以下两个主要挑战:
- 表现力丰富的语音中高度动态的风格特征难以建模和迁移
- TTS模型需要足够健壮以处理与源数据不同的多样化OOD条件
GenerSpeech通过引入两个关键组件来解决这些挑战:
- 多层次风格适配器:高效建模广泛的风格条件,包括全局说话人和情感特征,以及局部(句子、音素和单词级)细粒度韵律表示
- 可泛化内容适配器:采用Mix-Style层归一化消除语言内容表示中的风格信息,提高模型泛化能力
快速开始
要使用GenerSpeech生成高保真样本,您可以按照以下步骤操作:
- 克隆GitHub仓库:
git clone https://github.com/Rongjiehuang/GenerSpeech.git
cd GenerSpeech
- 创建并激活conda环境:
conda env create -f environment.yaml
conda activate generspeech
- 下载预训练模型和数据集:
- 运行推理脚本:
CUDA_VISIBLE_DEVICES=$GPU python inference/GenerSpeech.py --config modules/GenerSpeech/config/generspeech.yaml --exp_name GenerSpeech --hparams="text='here we go',ref_audio='assets/0011_001570.wav'"
生成的音频文件默认保存在infer_out
目录中。
相关资源
主要特性
- 多层次风格迁移,实现富有表现力的文本转语音
- 增强的模型泛化能力,适应域外(OOD)风格参考
如何贡献
GenerSpeech是一个开源项目,欢迎社区贡献。您可以通过以下方式参与:
- 提交Issue报告bug或提出新功能建议
- 提交Pull Request贡献代码
- 完善文档
引用
如果您在研究中使用了GenerSpeech,请引用以下论文:
@inproceedings{huanggenerspeech,
title={GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain Text-to-Speech},
author={Huang, Rongjie and Ren, Yi and Liu, Jinglin and Cui, Chenye and Zhao, Zhou},
booktitle={Advances in Neural Information Processing Systems}
}
GenerSpeech为TTS领域带来了新的可能性,特别是在处理域外自定义语音的风格迁移方面。通过本文提供的资源,相信读者能够快速上手并探索这一强大的模型。