高效自动语音识别模型,快速完成语音转录
parakeet-ctc-1.1b是由NVIDIA NeMo和Suno.ai团队开发的ASR模型,采用FastConformer架构,参数量约11亿。该模型适用于16kHz单声道音频,可以转录语音为小写英文。经过多数据集测试,字错率表现优异,如LibriSpeech clean数据集WER为1.83。利用NVIDIA NeMo工具包,该模型可用于推理或微调,适合多领域音频转录。
Parakeet-CTC-1.1b 是一个自动语音识别(ASR)模型,能够将语音转换为小写英文文本。这个模型由 NVIDIA NeMo 和 Suno.ai 团队合作开发,是一款 XXL 版本的 FastConformer CTC 模型,包含约 11 亿个参数。
Parakeet-CTC-1.1b 采用了 FastConformer 架构,这是一种经过优化的 Conformer 模型,具有 8 倍深度可分离卷积下采样。模型的训练使用了 CTC 损失函数。
本模型的训练数据包含 64,000 小时的英语语音数据,这些数据由 NVIDIA NeMo 和 Suno 团队收集和整理。其中包括了 40,000 小时的私有英语语音数据以及 24,000 小时来自以下公开数据集:
自动语音识别模型的性能通常使用词错误率(WER)来衡量。Parakeet-CTC-1.1b 在多种测试集上的表现如下:
这些结果展示了模型在不同领域和大规模数据集上的优异表现。
要使用 Parakeet-CTC-1.1b 模型进行语音识别,可以首先安装 NVIDIA NeMo 工具包,并使用以下 Python 代码加载预训练模型:
import nemo.collections.asr as nemo_asr asr_model = nemo_asr.models.EncDecCTCModelBPE.from_pretrained(model_name="nvidia/parakeet-ctc-1.1b")
输入应为 16000 Hz 的单声道音频(wav 文件),输出为该音频样本的转录文本。
该模型的使用受 CC-BY-4.0 授权协议约束。下载和使用公共发布版本的模型,表示接受该授权协议的条款和条件。
Parakeet-CTC-1.1b 项目的推出展示了语音识别技术领域的持续进步,无论是在模型复杂度还是数据规模上都达到了更高的水平,使得更加准确和快速的语音转录成为可能。