项目概述
WavLM-Base 是一个由微软开发的预训练语音模型,专为处理高质量的语音数据而设计。该模型预训练于16kHz采样率的语音数据,这意味着在使用时,输入的语音也需要以16kHz采样。
模型背景
WavLM 模型最初是在960小时的 Librispeech 数据集上进行预训练的。这是一种自监督学习(SSL)技术的典型应用,自监督学习在语音识别领域取得了显著成功。然而,由于语音信号包含诸如说话者身份、非语言特征以及所说内容等多方面的信息,因此设计一个用于所有语音任务的通用表示是具有挑战性的。
设计概念
WavLM 基于 HuBERT 框架构建,着重于口语内容建模和说话者身份的保留。模型通过以下几个关键技术提升了其识别能力:
- 门控相对位置偏置:提高Transformer结构在识别任务中的能力。
- 句子混合训练策略:在训练过程中自动地创建和加入重叠语句,无监督地增强说话者区分能力。
此外,模型还通过将训练数据集从60k小时扩大到94k小时,进一步增强了经过预训练的模型的表现能力。这些创新使 WavLM 在多种语音处理任务和 SUPERB 基准测试中达到了领先的性能。
使用说明
WavLM 是一种英语预训练的语音模型,需要在具体下游任务(如语音识别或音频分类)中进行微调后才能使用。模型专注于英语的预训练,因此其最佳表现也是在处理英语语音数据时。
语音识别
要为语音识别任务微调模型,可以查看官方示例。
语音分类
对于语音分类任务的微调示例,可以参考这里。
注意事项
由于模型是基于音素(而非字符)进行预训练的,因此,在进行微调前需要确保将输入文本转换为音素序列。
贡献者
WavLM 模型由 cywang 和 patrickvonplaten 提供。
授权许可
有关模型的官方许可信息,可以查看这里。