#自动语音转录
stt_en_conformer_ctc_large - 高级自动语音识别的Conformer-CTC模型及其与NVIDIA Riva的兼容性
NVIDIA Riva语音识别Huggingface自动语音转录开源项目NeMo工具包模型GithubConformer-CTC
stt_en_conformer_ctc_large是一个非自回归的Conformer-CTC模型,通过NeMo工具包和多样的训练数据集,提高了语音识别的准确性和效率。模型可以识别多种英文语音样本,并与NVIDIA Riva兼容,支持生产级部署。该模型含有1.2亿个参数,处理16kHz单声道音频输入,并输出转录文本。适合用于推理和新数据集上的微调。结合外部语言模型,在多项测试中实现了低WER,适用于实时语音识别。
reverb-asr - 基于大规模人工标注数据的开源语音识别模型
语音处理语音识别Github模型开源项目HuggingfaceReverb ASR人工智能自动语音转录
这是一个基于20万小时人工标注语音数据训练的开源语音识别系统。采用CTC/attention联合架构,同时支持CPU和GPU部署。系统的特色在于通过verbatimicity参数实现对转录详细程度的精确控制,可输出从简洁到完整逐字的多种转录风格。支持attention、CTC等多种解码方式,适合不同应用场景。