#HuggingSound
huggingsound - 基于HuggingFace的语音处理开源工具库
HuggingSound语音识别模型训练自然语言处理HuggingFaceGithub开源项目
HuggingSound是基于HuggingFace工具开发的语音处理工具库。该项目为语音识别、模型微调和评估提供了简洁的接口。适用于Python 3.8+环境,支持pip安装。HuggingSound能够利用预训练CTC模型进行推理,并通过语言模型增强识别准确度。此外,它还包含模型评估和微调功能,便于研究人员根据特定数据集优化模型表现。
wav2vec2-large-xlsr-53-chinese-zh-cn - 中文自动语音识别模型提供广泛应用支持
HuggingSound模型Common Voice语音转录Github语音识别XLSR Wav2Vec2Huggingface开源项目
该模型基于Common Voice、CSS10和ST-CMDS数据集,对facebook的wav2vec2-large-xlsr-53进行了微调,以实现中文自动语音识别。模型能够处理16kHz采样率的语音输入,可通过HuggingSound库直接进行语音转录或使用定制推理脚本。评估结果显示,模型在Common Voice测试数据集上WER为82.37%,CER为19.03%。感谢OVHcloud提供的GPU支持,该模型适用于医药、教育等领域语音数据处理。