#HuggingSound

huggingsound - 基于HuggingFace的语音处理开源工具库

HuggingSound语音识别模型训练自然语言处理HuggingFaceGithub开源项目

HuggingSound是基于HuggingFace工具开发的语音处理工具库。该项目为语音识别、模型微调和评估提供了简洁的接口。适用于Python 3.8+环境，支持pip安装。HuggingSound能够利用预训练CTC模型进行推理，并通过语言模型增强识别准确度。此外，它还包含模型评估和微调功能，便于研究人员根据特定数据集优化模型表现。

wav2vec2-large-xlsr-53-chinese-zh-cn - 中文自动语音识别模型提供广泛应用支持

HuggingSound模型Common Voice语音转录Github语音识别XLSR Wav2Vec2Huggingface开源项目

该模型基于Common Voice、CSS10和ST-CMDS数据集，对facebook的wav2vec2-large-xlsr-53进行了微调，以实现中文自动语音识别。模型能够处理16kHz采样率的语音输入，可通过HuggingSound库直接进行语音转录或使用定制推理脚本。评估结果显示，模型在Common Voice测试数据集上WER为82.37%，CER为19.03%。感谢OVHcloud提供的GPU支持，该模型适用于医药、教育等领域语音数据处理。

相关文章

Article Cover

HuggingSound: 基于Hugging Face工具的语音处理工具包

2024年09月05日

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号