#Common Voice

open-speech-corpora - 开放语料库整理助力语音技术研究与发展
开放语音语料库语音技术CC-0许可多语言Common VoiceGithub开源项目
open-speech-corpora项目为语音技术研究和开发提供了一个丰富的开放语料库清单。这些语料库多为免费并在创意共享许可证或社区数据许可协议下发布,方便研究和商业使用。它覆盖多种语言和超过2万小时的验证语音数据,是学者和开发者理想的数据资源。项目鼓励社区成员提出资源增补,以进一步完善数据库。
wav2vec2-large-xlsr-53-english - XLSR-53微调的英语语音识别模型
XLSR-53Common VoiceGithubHuggingface模型开源项目自然语言处理语音识别Wav2Vec2
该模型基于wav2vec2-large-xlsr-53在Common Voice 6.1英语数据集上微调而来。在Common Voice英语测试集上,模型达到19.06%词错率和7.69%字符错误率。支持16kHz采样率语音输入,可单独使用或结合语言模型。提供HuggingSound库和自定义脚本的Python示例代码,方便用户进行语音识别。
wav2vec2-large-xlsr-53-japanese - 基于Wav2Vec2的日语语音识别模型
Huggingface模型语音识别Github日语开源项目Wav2Vec2XLSR-53Common Voice
该模型是在facebook/wav2vec2-large-xlsr-53基础上,使用日语语音数据集微调而来的语音识别模型。在Common Voice日语测试集上,其词错误率(WER)为81.80%,字符错误率(CER)为20.16%,优于同类模型。它可直接用于日语语音转文本,无需额外语言模型。模型要求输入音频采样率为16kHz。
wav2vec2-large-xlsr-53-chinese-zh-cn - 中文自动语音识别模型提供广泛应用支持
HuggingSound模型Common Voice语音转录Github语音识别XLSR Wav2Vec2Huggingface开源项目
该模型基于Common Voice、CSS10和ST-CMDS数据集,对facebook的wav2vec2-large-xlsr-53进行了微调,以实现中文自动语音识别。模型能够处理16kHz采样率的语音输入,可通过HuggingSound库直接进行语音转录或使用定制推理脚本。评估结果显示,模型在Common Voice测试数据集上WER为82.37%,CER为19.03%。感谢OVHcloud提供的GPU支持,该模型适用于医药、教育等领域语音数据处理。
wav2vec2-large-xlsr-53-russian - 基于XLSR-53的俄语语音识别微调模型
模型俄语Common VoiceGithubXLSR-53语音识别开源项目HuggingfaceWav2Vec2
该项目是一个基于wav2vec2-large-xlsr-53的俄语语音识别微调模型。经Common Voice 6.1和CSS10数据集训练,适用于16kHz采样的语音输入。模型在Common Voice ru测试集上实现13.3%词错误率和2.88%字符错误率,加入语言模型后性能提升至9.57%和2.24%。支持通过HuggingSound库或自定义脚本使用,可应用于多种俄语语音识别场景。
wav2vec2-large-xlsr-53-portuguese - XLSR-53微调的葡萄牙语语音识别模型
模型Wav2Vec2Common Voice葡萄牙语开源项目HuggingfaceXLSR-53语音识别Github
此语音识别模型通过在Common Voice 6.1数据集上微调XLSR-53模型,专门针对葡萄牙语优化。在测试中,模型表现优异,词错误率为11.31%,字符错误率为3.74%。模型设计用于处理16kHz采样率的语音输入,可独立使用或与语言模型结合以提升性能。项目还包含详细的使用说明和评估工具,方便研究者和开发者快速应用和测试。
wav2vec2-large-xlsr-53-dutch - XLSR-53模型在荷兰语语音识别上的应用与性能
模型Common VoiceGithubXLSR-53语音识别荷兰语开源项目HuggingfaceWav2Vec2
这是一个基于facebook/wav2vec2-large-xlsr-53模型,针对荷兰语语音识别任务进行微调的模型。通过使用Common Voice 6.1和CSS10数据集进行训练,该模型在Common Voice nl测试集上达到了15.72%的词错误率和5.35%的字符错误率。模型设计用于处理16kHz采样率的语音输入,可单独使用或与语言模型配合。项目详细说明了使用方法和评估流程,为荷兰语自动语音识别提供了一个有效的开源解决方案。
wav2vec2-large-xls-r-300m-Urdu - 基于wav2vec2的乌尔都语语音识别模型
Urdu语音识别Github模型模型微调Common Voice开源项目Huggingfacewav2vec2
这是一个基于wav2vec2-xls-r-300m在Common Voice 8数据集上微调的乌尔都语语音识别模型。模型在测试集上达到39.89%的词错误率和16.7%的字符错误率。通过200轮训练,采用线性学习率调度和Adam优化器。模型支持简单的Python代码推理,并可与语言模型集成以提升性能。
wav2vec2-large-xlsr-53-polish - 基于XLSR-53的波兰语语音识别模型
模型Common Voice波兰语Github语音识别XLSR Wav2Vec2Huggingface开源项目自然语言处理
此模型基于wav2vec2-large-xlsr-53,在波兰语Common Voice数据集上进行微调。在测试集上达到14.21%词错率和3.49%字错率。模型支持16kHz采样率的波兰语语音输入,可用于自动语音识别任务。用户可使用HuggingSound库或自定义脚本轻松实现推理。
wav2vec2-xls-r-1b-portuguese - XLS-R 1B微调的葡萄牙语语音识别模型
模型Common Voice葡萄牙语Github语音识别XLS-R开源项目HuggingfaceWav2Vec2
该项目基于XLS-R 1B模型微调,专注于葡萄牙语语音识别。模型在Common Voice 8.0等多个数据集上训练,测试集词错误率达8.7%。支持16kHz采样率语音输入,可通过HuggingSound库或自定义脚本使用。项目为葡萄牙语语音识别研究和应用提供了实用工具。
wav2vec2-large-xlsr-53-th - 基于Common Voice数据集微调的泰语语音识别模型
模型Common VoiceGithub语音识别泰语开源项目HuggingfaceWav2Vec2自然语言处理
该项目提供了一个基于wav2vec2-large-xlsr-53架构的泰语语音识别模型。模型使用Common Voice 7.0数据集进行微调,在测试集上实现了13.63%的词错率和2.81%的字符错率。项目详细介绍了数据预处理、模型训练和评估流程,并与主流商业API进行了性能对比。此模型可用于开发泰语语音转文本应用,为泰语自然语言处理研究提供了有价值的资源。
wav2vec2-large-xlsr-53-arabic - XLSR-53模型在阿拉伯语语音识别中的应用与性能
模型阿拉伯语Common VoiceGithubXLSR-53自动语音识别开源项目HuggingfaceWav2Vec2
该项目基于Facebook的wav2vec2-large-xlsr-53模型,通过阿拉伯语语音数据微调,开发了一个高性能的阿拉伯语语音识别模型。在Common Voice测试集上,模型实现了39.59%的词错误率和18.18%的字符错误率,表现优于同类模型。模型支持16kHz采样率的语音输入,可直接用于阿拉伯语语音转录,无需额外语言模型。项目详细介绍了使用方法和评估结果,为阿拉伯语语音识别研究提供了有价值的参考。
wav2vec2-large-xlsr-53-persian - 基于XLSR-53微调的开源波斯语语音识别模型
模型Common VoiceGithubXLSR-53语音识别波斯语开源项目HuggingfaceWav2Vec2
该开源项目提供了一个基于XLSR-53的波斯语语音识别模型。通过在Common Voice数据集上微调,模型达到30.12%词错误率和7.37%字符错误率,超越同类方案。模型支持16kHz采样率语音直接识别,无需额外语言模型。项目包含完整使用指南和评估脚本,方便研究与应用。
wav2vec2-xls-r-300m-cv7-turkish - 基于Wav2vec2优化的土耳其语语音识别模型
模型wav2vec2-xls-r-300mCommon Voice开源项目Huggingface语音识别土耳其语机器学习模型Github
该模型是在wav2vec2-xls-r-300m基础上针对土耳其语优化的自动语音识别系统。通过Common Voice 7和MediaSpeech数据集训练,结合N-gram语言模型,在Common Voice 7测试集上实现8.62%词错误率和2.26%字符错误率。模型为土耳其语语音识别提供了高效可靠的开源解决方案,适用于多种语音识别场景。
wav2vec2-large-xlsr-53-greek - 基于wav2vec2的希腊语语音识别模型
模型Wav2Vec2Common Voice开源项目HuggingfaceXLSR-53语音识别Github希腊语
这是一个基于wav2vec2-large-xlsr-53微调的希腊语语音识别模型,在Common Voice和CSS10数据集上训练。模型可直接使用,无需额外语言模型,适用于16kHz采样率的语音输入。在Common Voice希腊语测试集上,该模型实现了11.62%的词错误率和3.36%的字符错误率。模型提供简单的使用方法,为希腊语自动语音识别提供了有效解决方案。
w2v-xls-r-uk - 基于XLS-R的乌克兰语语音识别模型展现卓越性能
模型GithubWav2Vec2Common Voice开源项目Huggingface语音识别Ukrainian自然语言处理
w2v-xls-r-uk是一款优化的乌克兰语语音识别模型,基于wav2vec2-xls-r-300m架构。经Common Voice 10.0数据集训练,结合语言模型后词错误率仅为4.63%。模型支持标点符号识别,并有活跃的社区支持。为获取最佳性能,建议使用其最新版本。该模型可广泛应用于语音转文本、实时字幕生成等场景,为乌克兰语自然语言处理任务提供强大支持。
Wav2Vec2-Large-XLSR-53-catalan - 加泰罗尼亚语自动语音识别模型性能表现
Common VoiceWav2Vec2训练语音识别模型Github开源项目CatalanHuggingface
项目在Common Voice数据集上微调了Facebook的Wav2Vec2-Large-XLSR-53模型,专注于加泰罗尼亚语的自动语音识别,达到8.11%的WER。支持直接使用无需语言模型的音频处理,并提供使用和评估的详细方法和代码示例。模型训练中处理内存问题的策略也有介绍。用户可考虑更新版本以获取更好的性能。
wav2vec2-large-xlsr-53-spanish - 基于XLSR-53微调的西班牙语语音识别模型
模型西班牙语Wav2Vec2Common Voice开源项目HuggingfaceXLSR-53语音识别Github
此西班牙语语音识别模型基于Facebook的wav2vec2-large-xlsr-53,在Common Voice数据集上微调。模型在测试集上达到8.82%词错误率和2.58%字符错误率,可直接处理16kHz采样的语音输入。项目提供使用示例和评估脚本,便于用户应用和评估。模型采用16kHz采样率,无需额外语言模型即可使用。项目还包含详细的使用说明和评估方法,有助于研究人员和开发者快速集成和测试。
wav2vec2-large-xlsr-bahasa-indonesia - wav2vec2架构的印尼语语音识别模型
模型印尼语Common VoiceWhisperGithub语音识别Wav2vec2Huggingface开源项目
这是一个开源的印尼语自动语音识别模型,基于wav2vec2-large-xlsr架构。模型使用Common Voice 6.1印尼语数据集训练,测试集词错误率为19.3%。项目提供训练代码仓库和联系方式。值得注意的是,作者已发布新版模型,具有更小体积和更低的5.9% WER。
wav2vec2-large-voxrex-swedish - 基于Wav2vec 2.0的瑞典语语音识别模型实现低错误率
Wav2vec 2.0Huggingface模型瑞典语语音识别Github开源项目VoxRexCommon Voice
该项目提供了一个基于Wav2vec 2.0 large VoxRex模型微调的瑞典语语音识别模型。模型使用瑞典广播、NST和Common Voice数据集进行训练,在Common Voice测试集上达到8.49%的词错误率,在NST和Common Voice混合测试集上仅为2.5%。模型支持16kHz采样率的语音输入,可直接使用无需额外语言模型。项目还包含详细的使用说明和性能对比分析。
wav2vec2-large-xlsr-53-romanian - 基于XLSR-53的罗马尼亚语语音识别模型
模型模型微调Wav2Vec2Common Voice开源项目Huggingface罗马尼亚语语音识别Github
该项目基于Facebook的wav2vec2-large-xlsr-53模型,通过Common Voice罗马尼亚语数据集进行微调,创建了一个专门用于罗马尼亚语的语音识别模型。在Common Voice罗马尼亚语测试集上,模型达到了24.84%的词错误率。适用于16kHz采样的罗马尼亚语音输入,无需额外语言模型即可使用。项目还提供了完整的使用说明和评估代码,便于研究者和开发者快速应用和验证。
wav2vec2-large-xlsr-53-finnish - 基于XLSR-53的芬兰语自动语音识别模型
芬兰语模型Wav2Vec2Common Voice开源项目HuggingfaceXLSR-53语音识别Github
该模型是在wav2vec2-large-xlsr-53基础上微调的芬兰语语音识别系统。它利用Common Voice和CSS10数据集训练,支持16kHz采样率输入。无需额外语言模型,可直接用于芬兰语语音转文本。在Common Voice测试集上,词错率41.6%,字符错率8.23%。项目提供了使用指南和评估方法,适合芬兰语语音识别应用。
wav2vec2-large-xlsr-53-hungarian - 基于XLSR-53微调的匈牙利语语音识别模型
模型匈牙利语Common VoiceGithubXLSR-53语音识别开源项目HuggingfaceWav2Vec2
该模型基于wav2vec2-large-xlsr-53在匈牙利语语音数据上微调而来,在Common Voice测试集上实现31.40%的词错误率和6.20%的字符错误率,性能优于同类模型。支持16kHz采样率的语音输入,无需额外语言模型即可使用。开发者可通过HuggingSound库或自定义脚本轻松集成该模型,实现匈牙利语语音识别功能。
wav2vec2-large-xlsr-53-italian - XLSR-53微调的开源意大利语语音识别模型
Huggingface模型语音识别Github开源项目意大利语Wav2Vec2XLSR-53Common Voice
这是一个基于Facebook的wav2vec2-large-xlsr-53模型,在Common Voice 6.1意大利语数据集上微调的语音识别模型。模型在测试集上达到9.41%的词错误率和2.29%的字符错误率。支持直接处理16kHz采样的语音输入,无需额外语言模型。项目提供了详细的使用说明和评估脚本,便于研究人员快速应用和测试。
wav2vec2-large-xlsr-53-swedish - 基于Wav2Vec2的瑞典语语音识别模型 支持16kHz采样率
Huggingface模型瑞典语语音识别Github模型训练开源项目Wav2Vec2Common Voice
这是一个基于Wav2Vec2-Large-XLSR-53在瑞典语数据集上微调的语音识别模型。模型在Common Voice瑞典语测试集上达到14.29% WER和4.93% CER的性能。它可直接使用,无需额外语言模型,适用于16kHz采样率音频。模型经过多阶段预训练和微调,为瑞典语自动语音识别任务提供了有效解决方案。
whisper-large-v3-turbo - 乌兹别克语语音识别模型的高性能解决方案
WhisperHuggingface模型语音识别模型微调乌兹别克语Github开源项目Common Voice
Whisper Large v3 Turbo是一个针对乌兹别克语优化的语音识别模型,基于OpenAI的Whisper大型模型微调而来。该模型在Common Voice 16.1数据集上训练,在测试集达到28.26%的词错误率,展现了良好的识别能力。模型使用Adam优化器和线性学习率策略,经过1万步训练。这一模型为乌兹别克语自动语音识别应用提供了有效工具。
wav2vec2-large-xlsr-53-german - 优化德语自动语音识别的开源模型
Common VoiceWav2Vec2德语语音识别深度学习Github模型开源项目Huggingface
本项目利用wav2vec2-large-xlsr-53-german模型对德语Common Voice数据集进行自动语音识别,得到WER为18.5%的结果。项目采用Torchaudio和Transformers库,并使用Resample进行音频预处理。该模型在语音转文字应用中具有广泛的研究价值。
wav2vec2-large-xlsr-53-french - 法语语音识别模型实现自动语音文本转录
开源项目模型Common VoiceGithubXLSR语音识别机器学习法语Huggingface
该开源模型通过针对法语的深度训练,实现了法语语音到文本的自动转录功能。模型支持处理16kHz采样率的语音输入,在标准测试集上展现出较低的错误率。模型提供完整的使用示例和评估工具,可用于法语语音识别相关应用开发。
wav2vec2-large-xlsr-53-esperanto - 基于XLSR-53微调的世界语语音识别模型
语音识别Github模型开源项目XLSREsperantoHuggingfaceWav2Vec2Common Voice
该项目基于wav2vec2-large-xlsr-53模型,使用世界语Common Voice数据集进行微调,开发了一个世界语语音识别模型。模型在测试集上实现12.31%的词错误率(WER),支持16kHz采样率的语音输入。它可直接应用于语音识别任务,无需额外语言模型。项目详细介绍了模型的使用方法和评估过程。
wav2vec2-large-xlsr-53-spanish - Wav2Vec2模型在西班牙语语音识别中的表现
Huggingface西班牙语音频开源项目模型自动语音识别GithubWav2Vec2Common Voice
项目在Common Voice ES测试集上测试了Wav2Vec2模型的性能,语音识别错误率为17.6%。此项目使用Facebook发布的模型,与Torchaudio结合进行数据预处理,实现了语音到文本的转化,展示了语音处理与自动语音识别领域的最新进展。