#NVIDIA Riva
stt_en_conformer_ctc_large - 高级自动语音识别的Conformer-CTC模型及其与NVIDIA Riva的兼容性
NVIDIA Riva语音识别Huggingface自动语音转录开源项目NeMo工具包模型GithubConformer-CTC
stt_en_conformer_ctc_large是一个非自回归的Conformer-CTC模型,通过NeMo工具包和多样的训练数据集,提高了语音识别的准确性和效率。模型可以识别多种英文语音样本,并与NVIDIA Riva兼容,支持生产级部署。该模型含有1.2亿个参数,处理16kHz单声道音频输入,并输出转录文本。适合用于推理和新数据集上的微调。结合外部语言模型,在多项测试中实现了低WER,适用于实时语音识别。
stt_en_conformer_transducer_xlarge - Conformer-Transducer模型的超大规模语音识别能力
模型训练NVIDIA ConformerNVIDIA Riva自动语音识别模型Github开源项目语音转录Huggingface
Conformer-Transducer超大模型拥有600M参数,专为英语自动语音识别设计,以较低的字错误率(WER)脱颖而出。通过NVIDIA NeMo工具包训练,涵盖LibriSpeech、Mozilla Common Voice等多个数据集。模型支持Python调用,具备细化调优和批量处理功能,适合多种语音识别应用。虽然暂未兼容NVIDIA Riva,但其在英语语音处理方面表现卓越。