项目介绍:深度学习在情感文本朗读中的应用
dl-for-emo-tts 项目致力于探索如何利用深度学习技术实现情感文本到语音转换。该项目对多种深度学习算法进行研究,希望能够生成富有情感的合成语音。
数据集
项目中使用了多个重要的数据集,包括:
- RAVDESS:具有24名说话者,包括8种情感,长度约1小时的英语数据集。
- EMOV-DB:包含5种情感的6914个语句,涵盖英语和法语(1名男性说话者)。
- LJ Speech:包含丰富词汇的单女性说话者的中性语音数据。
- IEMOCAP:具有多种情感和多模态输入的多对话数据集。
相关文献
团队在项目中参考了一些重要的文献:
- Tacotron:用于端到端语音合成的模型。
- Style Tokens:旨在提升语音合成表达力的风格切换策略。
- DC-TTS:基于深度卷积网络的高效语音合成系统。
方法
项目探讨了多种方法来优化情感文本到语音的转化。
Tacotron 模型方法
- 初始训练Tacotron基本模型:在RAVDESS数据集上微调。
- 降低学习率进行微调:在小学习率下进行模型微调尝试。
- 使用SGD优化器:对RAVDESS数据集进行微调的尝试。
- 冻结编码器和后处理网络:在微调时不更新这部分参数。
- 重新使用Adam优化器:重新切回Adam优化器进行尝试。
- 仅冻结后处理网络:在EMOV-DB数据集上进行训练,测试单一说话者的情感语音生成效果。
DC-TTS 模型方法
- 微调DC-TTS模型的Text2Mel模块:对单个说话者进行情感语音生成的实验。
- 引入单音调注意力机制:减少静音修剪后的
top_db
值。
可复现性和代码
项目提供了详细的训练步骤和修改指南,使用团队在原始代码库基础上进行了一些自定义修改的代码库,以便于研究人员进行复现。
演示
用户可以通过Colab Notebook来查看运行示例,详细步骤在Demo_DL_Based_Emotional_TTS.ipynb
文件中进行了说明。
引用
如果您发现本项目中介绍的模型、代码或方法对您的研究有帮助,请使用项目中提供的引用格式进行引用。
联系信息
项目参与者提供了联系信息,用户在使用过程中如遇到问题可通过电子邮件联系到团队成员。