PL-BERT - 通过PL-BERT实现更自然的语音合成

PL-BERT 项目详细介绍

PL-BERT，全称为音素级别的BERT模型，是一种基于BERT架构的语言模型，旨在提升文本到语音（TTS）转换中的自然语调生成。该项目由Yinghao Aaron Li、Cong Han、Xilin Jiang和Nima Mesgarani领导研究，其创新之处在于结合了音素预测和字母预测，为TTS模型生成更自然的语音提供了支持。

项目背景

在TTS技术的发展过程中，自然语调的生成一直是一个挑战。以往的研究主要依赖大规模预训练的语言模型，这些模型通常是在单词或更细分的音素级别训练的。然而，对于下游TTS任务来说，音素层面的信息显得更为重要。PL-BERT的目标正是通过重点处理音素级别的数据，提升TTS生成的语音自然度。根据主观评估，PL-BERT在自然度方面取得了显著提升，超过了目前先进的StyleTTS模型。

项目实现

预处理：项目中提供了一个预处理笔记本，用于处理英语维基百科数据集。开发者计划在未来扩展到其他语言，如日语。
训练：开发人员通过Jupyter Notebook进行初步实验，训练采用了Jupyter Notebook的代码方式，用户可以根据需求将其转换为Python脚本。
微调：PL-BERT可以用于微调现有的TTS模型，以替换文本编码器，优化其性能。示例中展示了如何在StyleTTS模型中应用PL-BERT进行微调，具体包含如何加载BERT模型、调整学习率以及更新模型参数等步骤。

下载与资源

开发者提供了在维基百科上训练了100万次的PL-BERT预训练模型，用户可以通过提供的链接进行下载。同时，还提供了一个包含经过修改的StyleTTS仓库和多个预训练模型的压缩包，可用于快速体验项目成果。

使用指南

环境准备：
- 依赖Python 3.7及以上版本。
- 克隆项目代码库，并创建新的Python环境。
安装所需的Python库：
- 安装过程中需包括pandas、singleton-decorator、datasets、transformers等多个库，以确保项目的正常运行。
微调设置：
- 修改StyleTTS的特定脚本以集成PL-BERT，包括文本编码器的替换以及学习率的调整等。

参考资源

项目参考了多个相关资源和工具库，如NVIDIA的NeMo文本处理库和TTSTextNormalization项目，以便于进行文本到语音转换相关任务的研究与开发。

PL-BERT的开发者为用户提供了详细的文档和资源，项目旨在促进TTS技术的进一步发展，为更自然的人机交互体验贡献力量。