#FastConformer
parakeet-rnnt-0.6b - 先进的英语语音识别模型 准确率达98.37%
模型Transducer开源项目Huggingface语音转文本FastConformerGithub自动语音识别NeMo
parakeet-rnnt-0.6b是NVIDIA NeMo和Suno.ai联合开发的英语语音识别模型。采用FastConformer Transducer架构,拥有约6亿参数。在LibriSpeech测试集上错误率仅1.63%,多个数据集上表现优异。支持16kHz单声道音频输入,可通过NeMo工具包使用,适用于多种语音转文本场景。
parakeet-ctc-1.1b - 高效自动语音识别模型,快速完成语音转录
Github模型FastConformer开源项目词错误率NeMopytorch自动语音识别Huggingface
parakeet-ctc-1.1b是由NVIDIA NeMo和Suno.ai团队开发的ASR模型,采用FastConformer架构,参数量约11亿。该模型适用于16kHz单声道音频,可以转录语音为小写英文。经过多数据集测试,字错率表现优异,如LibriSpeech clean数据集WER为1.83。利用NVIDIA NeMo工具包,该模型可用于推理或微调,适合多领域音频转录。