#Common Voice

open-speech-corpora - 开放语料库整理助力语音技术研究与发展
Github开源项目多语言开放语音语料库语音技术CC-0许可Common Voice
open-speech-corpora项目为语音技术研究和开发提供了一个丰富的开放语料库清单。这些语料库多为免费并在创意共享许可证或社区数据许可协议下发布,方便研究和商业使用。它覆盖多种语言和超过2万小时的验证语音数据,是学者和开发者理想的数据资源。项目鼓励社区成员提出资源增补,以进一步完善数据库。
wav2vec2-large-xlsr-53-th - 基于Common Voice数据集微调的泰语语音识别模型
Github开源项目自然语言处理语音识别模型HuggingfaceCommon Voice泰语Wav2Vec2
该项目提供了一个基于wav2vec2-large-xlsr-53架构的泰语语音识别模型。模型使用Common Voice 7.0数据集进行微调,在测试集上实现了13.63%的词错率和2.81%的字符错率。项目详细介绍了数据预处理、模型训练和评估流程,并与主流商业API进行了性能对比。此模型可用于开发泰语语音转文本应用,为泰语自然语言处理研究提供了有价值的资源。
wav2vec2-large-xlsr-53-persian - 基于XLSR-53微调的开源波斯语语音识别模型
Github开源项目语音识别模型HuggingfaceCommon VoiceXLSR-53Wav2Vec2波斯语
该开源项目提供了一个基于XLSR-53的波斯语语音识别模型。通过在Common Voice数据集上微调,模型达到30.12%词错误率和7.37%字符错误率,超越同类方案。模型支持16kHz采样率语音直接识别,无需额外语言模型。项目包含完整使用指南和评估脚本,方便研究与应用。
wav2vec2-xls-r-300m-cv7-turkish - 基于Wav2vec2优化的土耳其语语音识别模型
Github开源项目语音识别模型机器学习模型HuggingfaceCommon Voice土耳其语wav2vec2-xls-r-300m
该模型是在wav2vec2-xls-r-300m基础上针对土耳其语优化的自动语音识别系统。通过Common Voice 7和MediaSpeech数据集训练,结合N-gram语言模型,在Common Voice 7测试集上实现8.62%词错误率和2.26%字符错误率。模型为土耳其语语音识别提供了高效可靠的开源解决方案,适用于多种语音识别场景。
wav2vec2-large-xlsr-53-greek - 基于wav2vec2的希腊语语音识别模型
Github开源项目语音识别模型HuggingfaceCommon VoiceXLSR-53Wav2Vec2希腊语
这是一个基于wav2vec2-large-xlsr-53微调的希腊语语音识别模型,在Common Voice和CSS10数据集上训练。模型可直接使用,无需额外语言模型,适用于16kHz采样率的语音输入。在Common Voice希腊语测试集上,该模型实现了11.62%的词错误率和3.36%的字符错误率。模型提供简单的使用方法,为希腊语自动语音识别提供了有效解决方案。
w2v-xls-r-uk - 基于XLS-R的乌克兰语语音识别模型展现卓越性能
Github开源项目自然语言处理语音识别模型HuggingfaceCommon VoiceUkrainianWav2Vec2
w2v-xls-r-uk是一款优化的乌克兰语语音识别模型,基于wav2vec2-xls-r-300m架构。经Common Voice 10.0数据集训练,结合语言模型后词错误率仅为4.63%。模型支持标点符号识别,并有活跃的社区支持。为获取最佳性能,建议使用其最新版本。该模型可广泛应用于语音转文本、实时字幕生成等场景,为乌克兰语自然语言处理任务提供强大支持。
Wav2Vec2-Large-XLSR-53-catalan - 加泰罗尼亚语自动语音识别模型性能表现
Github开源项目语音识别模型训练HuggingfaceCommon VoiceWav2Vec2Catalan
项目在Common Voice数据集上微调了Facebook的Wav2Vec2-Large-XLSR-53模型,专注于加泰罗尼亚语的自动语音识别,达到8.11%的WER。支持直接使用无需语言模型的音频处理,并提供使用和评估的详细方法和代码示例。模型训练中处理内存问题的策略也有介绍。用户可考虑更新版本以获取更好的性能。
wav2vec2-large-xlsr-53-spanish - 基于XLSR-53微调的西班牙语语音识别模型
Github开源项目语音识别模型HuggingfaceCommon Voice西班牙语XLSR-53Wav2Vec2
此西班牙语语音识别模型基于Facebook的wav2vec2-large-xlsr-53,在Common Voice数据集上微调。模型在测试集上达到8.82%词错误率和2.58%字符错误率,可直接处理16kHz采样的语音输入。项目提供使用示例和评估脚本,便于用户应用和评估。模型采用16kHz采样率,无需额外语言模型即可使用。项目还包含详细的使用说明和评估方法,有助于研究人员和开发者快速集成和测试。
wav2vec2-large-xlsr-bahasa-indonesia - wav2vec2架构的印尼语语音识别模型
Github开源项目Whisper语音识别模型HuggingfaceCommon Voice印尼语Wav2vec2
这是一个开源的印尼语自动语音识别模型,基于wav2vec2-large-xlsr架构。模型使用Common Voice 6.1印尼语数据集训练,测试集词错误率为19.3%。项目提供训练代码仓库和联系方式。值得注意的是,作者已发布新版模型,具有更小体积和更低的5.9% WER。
wav2vec2-large-voxrex-swedish - 基于Wav2vec 2.0的瑞典语语音识别模型实现低错误率
Github开源项目语音识别模型HuggingfaceCommon Voice瑞典语Wav2vec 2.0VoxRex
该项目提供了一个基于Wav2vec 2.0 large VoxRex模型微调的瑞典语语音识别模型。模型使用瑞典广播、NST和Common Voice数据集进行训练,在Common Voice测试集上达到8.49%的词错误率,在NST和Common Voice混合测试集上仅为2.5%。模型支持16kHz采样率的语音输入,可直接使用无需额外语言模型。项目还包含详细的使用说明和性能对比分析。
wav2vec2-large-xlsr-53-romanian - 基于XLSR-53的罗马尼亚语语音识别模型
Github开源项目语音识别模型微调模型HuggingfaceCommon VoiceWav2Vec2罗马尼亚语
该项目基于Facebook的wav2vec2-large-xlsr-53模型,通过Common Voice罗马尼亚语数据集进行微调,创建了一个专门用于罗马尼亚语的语音识别模型。在Common Voice罗马尼亚语测试集上,模型达到了24.84%的词错误率。适用于16kHz采样的罗马尼亚语音输入,无需额外语言模型即可使用。项目还提供了完整的使用说明和评估代码,便于研究者和开发者快速应用和验证。
wav2vec2-large-xlsr-53-finnish - 基于XLSR-53的芬兰语自动语音识别模型
Github开源项目语音识别模型HuggingfaceCommon VoiceXLSR-53Wav2Vec2芬兰语
该模型是在wav2vec2-large-xlsr-53基础上微调的芬兰语语音识别系统。它利用Common Voice和CSS10数据集训练,支持16kHz采样率输入。无需额外语言模型,可直接用于芬兰语语音转文本。在Common Voice测试集上,词错率41.6%,字符错率8.23%。项目提供了使用指南和评估方法,适合芬兰语语音识别应用。
wav2vec2-large-xlsr-53-hungarian - 基于XLSR-53微调的匈牙利语语音识别模型
Github开源项目语音识别模型HuggingfaceCommon Voice匈牙利语XLSR-53Wav2Vec2
该模型基于wav2vec2-large-xlsr-53在匈牙利语语音数据上微调而来,在Common Voice测试集上实现31.40%的词错误率和6.20%的字符错误率,性能优于同类模型。支持16kHz采样率的语音输入,无需额外语言模型即可使用。开发者可通过HuggingSound库或自定义脚本轻松集成该模型,实现匈牙利语语音识别功能。
wav2vec2-large-xlsr-53-italian - XLSR-53微调的开源意大利语语音识别模型
Github开源项目语音识别模型HuggingfaceCommon VoiceXLSR-53Wav2Vec2意大利语
这是一个基于Facebook的wav2vec2-large-xlsr-53模型,在Common Voice 6.1意大利语数据集上微调的语音识别模型。模型在测试集上达到9.41%的词错误率和2.29%的字符错误率。支持直接处理16kHz采样的语音输入,无需额外语言模型。项目提供了详细的使用说明和评估脚本,便于研究人员快速应用和测试。
wav2vec2-large-xlsr-53-swedish - 基于Wav2Vec2的瑞典语语音识别模型 支持16kHz采样率
Github开源项目模型训练语音识别模型HuggingfaceCommon Voice瑞典语Wav2Vec2
这是一个基于Wav2Vec2-Large-XLSR-53在瑞典语数据集上微调的语音识别模型。模型在Common Voice瑞典语测试集上达到14.29% WER和4.93% CER的性能。它可直接使用,无需额外语言模型,适用于16kHz采样率音频。模型经过多阶段预训练和微调,为瑞典语自动语音识别任务提供了有效解决方案。
whisper-large-v3-turbo - 乌兹别克语语音识别模型的高性能解决方案
Github开源项目Whisper语音识别模型微调模型HuggingfaceCommon Voice乌兹别克语
Whisper Large v3 Turbo是一个针对乌兹别克语优化的语音识别模型,基于OpenAI的Whisper大型模型微调而来。该模型在Common Voice 16.1数据集上训练,在测试集达到28.26%的词错误率,展现了良好的识别能力。模型使用Adam优化器和线性学习率策略,经过1万步训练。这一模型为乌兹别克语自动语音识别应用提供了有效工具。
wav2vec2-large-xlsr-53-german - 优化德语自动语音识别的开源模型
Github开源项目深度学习语音识别模型HuggingfaceCommon Voice德语Wav2Vec2
本项目利用wav2vec2-large-xlsr-53-german模型对德语Common Voice数据集进行自动语音识别,得到WER为18.5%的结果。项目采用Torchaudio和Transformers库,并使用Resample进行音频预处理。该模型在语音转文字应用中具有广泛的研究价值。
wav2vec2-large-xlsr-53-french - 法语语音识别模型实现自动语音文本转录
Github开源项目语音识别机器学习模型HuggingfaceCommon Voice法语XLSR
该开源模型通过针对法语的深度训练,实现了法语语音到文本的自动转录功能。模型支持处理16kHz采样率的语音输入,在标准测试集上展现出较低的错误率。模型提供完整的使用示例和评估工具,可用于法语语音识别相关应用开发。
wav2vec2-large-xlsr-53-esperanto - 基于XLSR-53微调的世界语语音识别模型
Github开源项目语音识别模型HuggingfaceCommon VoiceWav2Vec2XLSREsperanto
该项目基于wav2vec2-large-xlsr-53模型,使用世界语Common Voice数据集进行微调,开发了一个世界语语音识别模型。模型在测试集上实现12.31%的词错误率(WER),支持16kHz采样率的语音输入。它可直接应用于语音识别任务,无需额外语言模型。项目详细介绍了模型的使用方法和评估过程。
wav2vec2-large-xlsr-53-spanish - Wav2Vec2模型在西班牙语语音识别中的表现
Github开源项目模型Huggingface自动语音识别Common Voice西班牙语音频Wav2Vec2
项目在Common Voice ES测试集上测试了Wav2Vec2模型的性能,语音识别错误率为17.6%。此项目使用Facebook发布的模型,与Torchaudio结合进行数据预处理,实现了语音到文本的转化,展示了语音处理与自动语音识别领域的最新进展。