Parakeet-CTC-1.1b 项目介绍
项目背景
Parakeet-CTC-1.1b 是一个自动语音识别(ASR)模型,能够将语音转换为小写英文文本。这个模型由 NVIDIA NeMo 和 Suno.ai 团队合作开发,是一款 XXL 版本的 FastConformer CTC 模型,包含约 11 亿个参数。
模型架构
Parakeet-CTC-1.1b 采用了 FastConformer 架构,这是一种经过优化的 Conformer 模型,具有 8 倍深度可分离卷积下采样。模型的训练使用了 CTC 损失函数。
数据集
本模型的训练数据包含 64,000 小时的英语语音数据,这些数据由 NVIDIA NeMo 和 Suno 团队收集和整理。其中包括了 40,000 小时的私有英语语音数据以及 24,000 小时来自以下公开数据集:
- Librispeech
- Fisher Corpus
- Switchboard-1
- WSJ-0 和 WSJ-1
- National Speech Corpus(部分)
- VCTK
- VoxPopuli
- Europarl-ASR
- Multilingual Librispeech
- Mozilla Common Voice
- 人民语音
性能表现
自动语音识别模型的性能通常使用词错误率(WER)来衡量。Parakeet-CTC-1.1b 在多种测试集上的表现如下:
- AMI(会议测试):WER 15.62
- Earnings-22:WER 13.69
- GigaSpeech:WER 10.27
- LibriSpeech (clean):WER 1.83
- SPGI Speech:WER 4.2
- TEDLIUM-v3:WER 3.54
- Vox Populi:WER 6.53
- Mozilla Common Voice 9.0:WER 9.02
这些结果展示了模型在不同领域和大规模数据集上的优异表现。
模型使用
要使用 Parakeet-CTC-1.1b 模型进行语音识别,可以首先安装 NVIDIA NeMo 工具包,并使用以下 Python 代码加载预训练模型:
import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecCTCModelBPE.from_pretrained(model_name="nvidia/parakeet-ctc-1.1b")
输入应为 16000 Hz 的单声道音频(wav 文件),输出为该音频样本的转录文本。
许可证
该模型的使用受 CC-BY-4.0 授权协议约束。下载和使用公共发布版本的模型,表示接受该授权协议的条款和条件。
参考资料
- Fast Conformer with Linearly Scalable Attention for Efficient Speech Recognition
- Google Sentencepiece Tokenizer
- NVIDIA NeMo Toolkit
- Suno.ai
- HuggingFace ASR Leaderboard
Parakeet-CTC-1.1b 项目的推出展示了语音识别技术领域的持续进步,无论是在模型复杂度还是数据规模上都达到了更高的水平,使得更加准确和快速的语音转录成为可能。