#自动语音识别

wav2vec2-indonesian-javanese-sundanese - 印尼、爪哇和巽他语的多语言语音识别模型
Github开源项目模型多语言Huggingface印尼语自动语音识别语音识别Wav2Vec2
利用优化的Wav2Vec2模型,专注于印尼、爪哇和巽他语的多语言语音识别,数据来自Common Voice和TTS数据集,拥有较低字错误率并提供在线演示,工具无需语言模型,适合16kHz语音输入,帮助研究人员和开发者探索多语言识别技术。
wav2vec2-lv-60-espeak-cv-ft - 利用微调的wav2vec2模型提升多语言语音和语素识别能力
语音识别Huggingface开源项目模型自主学习自动语音识别GithubWav2Vec2跨语言
wav2vec2-large-lv60模型经过多语言Common Voice数据集微调,实现跨语言语音与语素识别。模型在16kHz采样率的语音输入下输出语素标签,需使用语素到单词的映射字典进行转换。该方法在未见语言的转录中表现优异,超过以往单一语言模型的效果。
parakeet-tdt_ctc-110m - 流畅高效的FastConformer TDT-CTC语音识别解决方案
NVIDIA NeMoHuggingface模型架构开源项目模型快速Conformer自动语音识别Github语音转写
该模型融合FastConformer与TDT-CTC架构,专为英文语音识别而优化,支持转录标点和大写字母。以高效架构处理长达20分钟音频数据,通过NVIDIA NeMo和Suno团队训练,在多个基准数据集中表现优异。通过NeMo工具包,预训练检查点便于进行模型推理或微调。