HuBERT-Large-LS960-FT项目介绍
HuBERT-Large-LS960-FT是一个用于语音识别的强大模型,由Facebook AI研究团队开发。该模型是在960小时的LibriSpeech数据集上微调的大型HuBERT模型。
模型背景
HuBERT(Hidden-Unit BERT)是一种自监督语音表示学习方法,旨在解决语音领域特有的三个问题:
- 每个输入语音中包含多个声音单元
- 预训练阶段没有输入声音单元的词典
- 声音单元长度可变,没有明确的分割
为了应对这些挑战,HuBERT采用了离线聚类步骤来提供对齐的目标标签,并使用类似BERT的预测损失。
模型特点
- 基于facebook/hubert-large-ll60k模型微调而来
- 在16kHz采样的语音音频上训练
- 在LibriSpeech(960小时)和Libri-light(60,000小时)基准测试中表现出色
- 在更具挑战性的dev-other和test-other评估子集上,相对词错率(WER)分别降低了19%和13%
使用方法
该模型可以用于自动语音识别任务。使用时需注意:
- 输入语音应采样为16kHz
- 使用Wav2Vec2Processor进行音频预处理
- 使用HubertForCTC加载模型进行推理
性能表现
在LibriSpeech清晰语音测试集上,该模型达到了1.9%的词错率(WER),展现了优秀的语音识别能力。
许可证和来源
- 该模型使用Apache 2.0许可证
- 模型源代码可在GitHub上的PyTorch/fairseq仓库中找到
HuBERT-Large-LS960-FT模型为语音识别任务提供了一个强大的工具,其优秀的性能和易用性使其成为该领域的重要贡献。