parakeet-ctc-1.1b

Parakeet-CTC-1.1b 项目介绍

项目背景

Parakeet-CTC-1.1b 是一个自动语音识别（ASR）模型，能够将语音转换为小写英文文本。这个模型由 NVIDIA NeMo 和 Suno.ai 团队合作开发，是一款 XXL 版本的 FastConformer CTC 模型，包含约 11 亿个参数。

模型架构

Parakeet-CTC-1.1b 采用了 FastConformer 架构，这是一种经过优化的 Conformer 模型，具有 8 倍深度可分离卷积下采样。模型的训练使用了 CTC 损失函数。

数据集

本模型的训练数据包含 64,000 小时的英语语音数据，这些数据由 NVIDIA NeMo 和 Suno 团队收集和整理。其中包括了 40,000 小时的私有英语语音数据以及 24,000 小时来自以下公开数据集：

Librispeech
Fisher Corpus
Switchboard-1
WSJ-0 和 WSJ-1
National Speech Corpus（部分）
VCTK
VoxPopuli
Europarl-ASR
Multilingual Librispeech
Mozilla Common Voice
人民语音

性能表现

自动语音识别模型的性能通常使用词错误率（WER）来衡量。Parakeet-CTC-1.1b 在多种测试集上的表现如下：

AMI（会议测试）：WER 15.62
Earnings-22：WER 13.69
GigaSpeech：WER 10.27
LibriSpeech (clean)：WER 1.83
SPGI Speech：WER 4.2
TEDLIUM-v3：WER 3.54
Vox Populi：WER 6.53
Mozilla Common Voice 9.0：WER 9.02

这些结果展示了模型在不同领域和大规模数据集上的优异表现。

模型使用

要使用 Parakeet-CTC-1.1b 模型进行语音识别，可以首先安装 NVIDIA NeMo 工具包，并使用以下 Python 代码加载预训练模型：

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecCTCModelBPE.from_pretrained(model_name="nvidia/parakeet-ctc-1.1b")

输入应为 16000 Hz 的单声道音频（wav 文件），输出为该音频样本的转录文本。

许可证

该模型的使用受 CC-BY-4.0 授权协议约束。下载和使用公共发布版本的模型，表示接受该授权协议的条款和条件。

参考资料

Parakeet-CTC-1.1b 项目的推出展示了语音识别技术领域的持续进步，无论是在模型复杂度还是数据规模上都达到了更高的水平，使得更加准确和快速的语音转录成为可能。

Parakeet-CTC-1.1b 项目介绍

项目背景

模型架构

数据集

性能表现

模型使用

许可证

参考资料

编辑推荐精选

讯飞智文

讯飞星火

Spark-TTS

Trae

咔片PPT

讯飞绘文

材料星

openai-agents-python

Hunyuan3D-2

3FS

探索AI的无限可能

推荐工具精选

Trae

豆包

讯飞文书

讯飞绘文

讯飞绘镜

阿里绘蛙

咔片PPT

AI云服务特惠

火山引擎

阿里云

腾讯云

华为云

百度智能云

AWS

关注微信公众号