#词错误率
parakeet-tdt_ctc-1.1b - 高性能自动语音识别模型解决方案
词错误率自动语音识别数据集Github开源项目快速同构体NeMoHuggingface模型
parakeet-tdt_ctc-1.1b提供了一个功能强大的语音识别模型,支持将语音转录为包含标点和大写字母的文本。由NVIDIA NeMo和Suno.ai团队联合开发,拥有1.1B的参数规模,能够高效地处理大规模的音频数据。该模型利用局部注意力和全局令牌技术实现单次处理11小时音频。其在多个公开数据集上的出色表现,表明其在语音转录应用中有广泛的适用性和较低的词错误率(WER)。
parakeet-ctc-1.1b - 高效自动语音识别模型,快速完成语音转录
Github模型FastConformer开源项目词错误率NeMopytorch自动语音识别Huggingface
parakeet-ctc-1.1b是由NVIDIA NeMo和Suno.ai团队开发的ASR模型,采用FastConformer架构,参数量约11亿。该模型适用于16kHz单声道音频,可以转录语音为小写英文。经过多数据集测试,字错率表现优异,如LibriSpeech clean数据集WER为1.83。利用NVIDIA NeMo工具包,该模型可用于推理或微调,适合多领域音频转录。