#语音识别
distil-medium.en - 高效快速的英语语音识别模型
模型开源项目Huggingface模型压缩Distil-Whisper语音识别GithubTransformers推理加速
Distil-Whisper是OpenAI Whisper模型的压缩版,专为英语语音识别优化。该模型速度提升6倍,体积减少49%,性能仅下降1% WER。通过教师-学生蒸馏法在22,000小时多样化音频数据上训练,可直接替代Whisper用于短长音频转录,支持流式处理。
faster-whisper-large-v3 - 多语言语音识别模型CTranslate2版Whisper large-v3
WhisperHuggingface模型CTranslate2语音识别Github开源项目自然语言处理模型转换
项目提供了OpenAI Whisper large-v3模型的CTranslate2转换版本,为faster-whisper定制优化。支持100多种语言的自动语音识别,具备高效性能和可调节的量化选项。易于整合到Python项目中,能够实现迅速准确的音频转写。这一模型适合多语言场景,是处理语音识别任务的有力工具。
wav2vec2-large-xlsr-53-persian - 基于XLSR-53微调的开源波斯语语音识别模型
模型Common VoiceGithubXLSR-53语音识别波斯语开源项目HuggingfaceWav2Vec2
该开源项目提供了一个基于XLSR-53的波斯语语音识别模型。通过在Common Voice数据集上微调,模型达到30.12%词错误率和7.37%字符错误率,超越同类方案。模型支持16kHz采样率语音直接识别,无需额外语言模型。项目包含完整使用指南和评估脚本,方便研究与应用。
faster-whisper-base.en - 基于CTranslate2的Whisper英语语音识别模型
模型faster-whisperWhisperGithubCTranslate2语音识别模型转换Huggingface开源项目
faster-whisper-base.en是OpenAI Whisper base.en模型的CTranslate2格式转换版本,专为英语语音识别优化。该模型利用CTranslate2框架提高处理速度,支持FP16量化以适应不同计算环境。开发者可通过faster-whisper等项目简单实现音频转录,为语音识别应用提供高效解决方案。模型采用MIT许可证,便于在各类项目中应用。该模型特别适用于需要实时处理或资源受限的环境,如移动设备或边缘计算设备上的语音识别应用。相比原始Whisper模型,faster-whisper-base.en在保持识别准确度的同时,显著提高了处理速度和资源利用效率。
mms-300m - Facebook AI推出大规模多语言语音预训练模型
Huggingface模型语音识别Github多语言语音模型开源项目MMSFacebook AI自监督训练
MMS-300m是Facebook AI开发的大规模多语言预训练语音模型,具有3亿参数。该模型在超过1400种语言的约50万小时语音数据上进行预训练,采用Wav2Vec2的自监督训练方法。MMS-300m为自动语音识别、翻译和分类等下游任务提供了基础,可通过微调适应不同应用场景,推动了跨语言语音技术的发展。
wav2vec2-large-robust-ft-libritts-voxpopuli - 精确转录语音的Wav2Vec2模型 支持标点符号输出
模型标点符号wav2vec2Github语音识别文本转语音开源项目Huggingface数据集
Wav2Vec2-large-robust-ft-libritts-voxpopuli是一款经过优化的语音转录模型,专门生成带标点符号的高质量文本。该模型基于LibriTTS和VoxPopuli数据集训练,在Librispeech验证集上达到4.45%的词错误率。它尤其适用于TTS模型转录,准确的标点有助于提升语音韵律。虽主要针对清晰音频优化,但对噪声音频如CommonVoice也有良好表现。
faster-whisper-large-v2 - 多语言语音识别模型 支持高效转录和翻译
模型WhisperGithub语音识别CTranslate2模型转换Huggingface开源项目自然语言处理
faster-whisper-large-v2是基于OpenAI Whisper large-v2模型转换的CTranslate2格式语音识别模型。该模型支持100多种语言的音频转录和翻译,性能高效且语言覆盖范围广泛。开发者可通过faster-whisper库轻松使用,实现强大的多语言语音处理。模型采用FP16格式保存权重,可在加载时根据需求调整计算类型,适应不同应用场景。
wav2vec2-base-vi - 基于wav2vec2的越南语自监督学习模型提升语音识别性能
模型Wav2Vec2预训练模型开源项目Huggingface自监督学习语音识别越南语Github
该项目开发了基于wav2vec2架构的越南语自监督学习模型。模型使用13000小时的多样化越南语YouTube音频数据进行预训练,包括清晰音频、噪声音频和对话等。项目提供95M参数的基础版和317M参数的大型版预训练模型。在VLSP 2020 ASR数据集上,大型模型配合5-gram语言模型可将词错率降至5.32%。这些模型为越南语语音识别等下游任务提供了有力支持。
wav2vec2-large-xlsr-53 - 突破性多语言语音识别模型 适用低资源语言场景
模型预训练模型多语言模型开源项目Huggingface语音识别Github深度学习Wav2Vec2-XLSR-53
Wav2Vec2-XLSR-53是一款基于wav2vec 2.0架构的多语言语音识别模型。该模型通过在53种语言的原始音频上预训练,学习跨语言语音表示。在CommonVoice和BABEL等基准测试中,Wav2Vec2-XLSR-53显著优于单语言模型,特别适合低资源语言的语音识别任务。这一开源项目为研究人员提供了强大工具,有助于推动低资源语言语音理解的进展。
wav2vec2-xls-r-300m-cs-250 - 高性能捷克语语音识别模型 实现精准音频转文本
模型模型训练Github语音识别深度学习捷克语开源项目HuggingfaceWav2Vec2
这是一个基于wav2vec2-xls-r-300m的捷克语语音识别模型,经过Common Voice 8.0等多个数据集的微调。模型在测试集上达到7.3%的词错误率和2.1%的字符错误率,性能优异。它支持16kHz采样率的语音输入,无需额外语言模型即可直接使用。项目提供了简洁的使用示例,并详细记录了训练过程和评估指标。
wav2vec2-base-vietnamese-250h - wav2vec2提升越南语音识别精度
开源项目模型Github越南语HuggingfaceCTCwav2vec2语音识别自动语音识别
项目应用wav2vec2技术实现越南语的自动语音识别。模型在13000小时的未标注YouTube音频上预训练,并在250小时的VLSP ASR数据集上进行微调,支持16kHz采样音频。结合4-grams语言模型,显著提高了语音识别的准确性,降低了VIVOS数据集的词错误率,从10.77降至6.15。项目使用CC BY-NC 4.0授权,适用于非商业用途。
wav2vec2-xls-r-300m-cv7-turkish - 基于Wav2vec2优化的土耳其语语音识别模型
模型wav2vec2-xls-r-300mCommon Voice开源项目Huggingface语音识别土耳其语机器学习模型Github
该模型是在wav2vec2-xls-r-300m基础上针对土耳其语优化的自动语音识别系统。通过Common Voice 7和MediaSpeech数据集训练,结合N-gram语言模型,在Common Voice 7测试集上实现8.62%词错误率和2.26%字符错误率。模型为土耳其语语音识别提供了高效可靠的开源解决方案,适用于多种语音识别场景。
wav2vec2-large-xlsr-53-greek - 基于wav2vec2的希腊语语音识别模型
模型Wav2Vec2Common Voice开源项目HuggingfaceXLSR-53语音识别Github希腊语
这是一个基于wav2vec2-large-xlsr-53微调的希腊语语音识别模型,在Common Voice和CSS10数据集上训练。模型可直接使用,无需额外语言模型,适用于16kHz采样率的语音输入。在Common Voice希腊语测试集上,该模型实现了11.62%的词错误率和3.36%的字符错误率。模型提供简单的使用方法,为希腊语自动语音识别提供了有效解决方案。
w2v-xls-r-uk - 基于XLS-R的乌克兰语语音识别模型展现卓越性能
模型GithubWav2Vec2Common Voice开源项目Huggingface语音识别Ukrainian自然语言处理
w2v-xls-r-uk是一款优化的乌克兰语语音识别模型,基于wav2vec2-xls-r-300m架构。经Common Voice 10.0数据集训练,结合语言模型后词错误率仅为4.63%。模型支持标点符号识别,并有活跃的社区支持。为获取最佳性能,建议使用其最新版本。该模型可广泛应用于语音转文本、实时字幕生成等场景,为乌克兰语自然语言处理任务提供强大支持。
whisper-medium-fleurs-lang-id - Whisper Medium微调模型实现多语言音频识别
FLEURS数据集Whisper语言识别Huggingface模型语音识别模型微调Github开源项目
该模型是对openai/whisper-medium在FLEURS数据集上进行微调的版本,专注于多语言识别任务。经过3轮训练后,模型在评估集上实现了88.05%的准确率。采用Adam优化器和线性学习率调度器,模型性能得到显著提升。这一成果为音频语言识别应用提供了有力工具,可应用于多语种环境下的语音分析和处理。这一模型在多语言环境下的语音转写、实时翻译等领域具有广阔应用前景。相比原始Whisper Medium模型,该微调版本在特定语言识别任务上表现更为出色,为跨语言交流和音频内容分析提供了更精准的工具支持。
wav2vec2-large-xlsr-53-gender-recognition-librispeech - Wav2Vec2模型在Librispeech数据集上的音频性别识别应用
模型Librispeech性别识别wav2vec2Github语音识别深度学习Huggingface开源项目
这是一个基于facebook/wav2vec2-xls-r-300m模型在Librispeech-clean-100数据集上微调的音频性别识别模型。模型在评估集上达到0.9993的F1分数,性能表现优异。项目提供了完整的推理代码,包括自定义数据集处理和批量音频处理功能。训练过程采用了Adam优化器和线性学习率调度等策略。该模型为音频性别识别任务提供了一个高效可靠的解决方案。
Wav2Vec2-Large-XLSR-53-catalan - 加泰罗尼亚语自动语音识别模型性能表现
Common VoiceWav2Vec2训练语音识别模型Github开源项目CatalanHuggingface
项目在Common Voice数据集上微调了Facebook的Wav2Vec2-Large-XLSR-53模型,专注于加泰罗尼亚语的自动语音识别,达到8.11%的WER。支持直接使用无需语言模型的音频处理,并提供使用和评估的详细方法和代码示例。模型训练中处理内存问题的策略也有介绍。用户可考虑更新版本以获取更好的性能。
faster-whisper-small - 优化的Whisper小型模型实现快速多语言语音转文本
WhisperHuggingface模型CTranslate2语音识别Github开源项目自然语言处理模型转换
faster-whisper-small是OpenAI Whisper小型模型的优化版本,适用于CTranslate2框架。这个模型支持90多种语言的自动语音识别,采用float16量化以提高效率。开发者可通过faster-whisper库轻松集成该模型,适用于多种语音转文本场景。模型具有快速处理能力和广泛的语言覆盖范围,为自动语音识别任务提供了实用的解决方案。
stt_en_conformer_ctc_large - 高级自动语音识别的Conformer-CTC模型及其与NVIDIA Riva的兼容性
NVIDIA Riva语音识别Huggingface自动语音转录开源项目NeMo工具包模型GithubConformer-CTC
stt_en_conformer_ctc_large是一个非自回归的Conformer-CTC模型,通过NeMo工具包和多样的训练数据集,提高了语音识别的准确性和效率。模型可以识别多种英文语音样本,并与NVIDIA Riva兼容,支持生产级部署。该模型含有1.2亿个参数,处理16kHz单声道音频输入,并输出转录文本。适合用于推理和新数据集上的微调。结合外部语言模型,在多项测试中实现了低WER,适用于实时语音识别。
faster-whisper-tiny - CTranslate2格式Whisper小型模型实现多语言语音识别
faster-whisperWhisperHuggingface模型CTranslate2语音识别Github开源项目自然语言处理
该项目将OpenAI Whisper小型模型转换为CTranslate2格式,支持100多种语言的语音识别。适用于CTranslate2及其衍生项目如faster-whisper,能高效进行自动语音识别。开发者可通过简单的Python代码实现音频转录,得到包含时间戳的文本段落。模型采用FP16格式存储,可在加载时灵活调整计算类型,为语音识别应用提供了高效且可定制的解决方案。
sew-d-tiny-100k-ft-ls100h - SEW-D架构语音识别模型实现性能与效率的优化平衡
模型Github语音识别深度学习LibriSpeechSEW-DHuggingface开源项目自然语言处理
sew-d-tiny-100k-ft-ls100h是基于SEW-D架构的预训练语音识别模型,在LibriSpeech数据集上经过微调。模型在clean测试集和other测试集上分别达到10.47%和22.73%的词错误率,同时推理速度比wav2vec 2.0提升1.9倍。这一模型在保持识别准确率的基础上大幅提高了效率,可应用于自动语音识别、说话人识别等多种语音处理任务,为相关领域提供了性能与效率兼具的解决方案。
distil-large-v2 - 高效精简的Whisper语音识别模型
模型Github模型压缩语音识别Distil-Whisper自动语音识别Huggingface开源项目Transformers
distil-large-v2是Whisper语音识别模型的蒸馏版本,推理速度提高6倍,模型体积减少49%,性能接近原始模型。采用编码器-解码器架构,通过精简解码器层数实现加速。支持英语短音频和长音频转录,可作为Whisper辅助模型进行推测解码。基于多个开源数据集训练,适用广泛语音识别场景。
faster-whisper-large-v3-turbo-ct2 - 基于Whisper large-v3的多语言语音识别模型
模型多语言支持faster-whisperWhisper开源项目Huggingface语音识别CTranslate2Github
这是一个基于OpenAI Whisper large-v3模型优化的CTranslate2版本,专注于高效的语音识别。该模型支持100多种语言的转录,兼具准确性和速度。通过faster-whisper库,可以便捷地进行音频转录。模型采用FP16格式存储,计算类型可灵活调整。这为语音识别应用的开发提供了一个强大的工具。
nb-wav2vec2-1b-bokmaal - 基于XLS-R的挪威语Bokmål语音识别模型实现高精度转录
Huggingface模型语音识别Github开源项目Wav2Vec2挪威语NPSCHugging Face
nb-wav2vec2-1b-bokmaal是一个基于XLS-R的挪威语Bokmål语音识别模型,在NPSC测试集上达到6.33%词错误率和2.48%字符错误率。该模型由NbAiLab团队使用挪威议会语音语料库(NPSC)训练,并开源了完整代码和参数配置,便于研究者复现和优化。模型在Hugging Face平台发布,支持挪威语自动语音识别任务。
wav2vec2-large-xlsr-53-spanish - 基于XLSR-53微调的西班牙语语音识别模型
模型西班牙语Wav2Vec2Common Voice开源项目HuggingfaceXLSR-53语音识别Github
此西班牙语语音识别模型基于Facebook的wav2vec2-large-xlsr-53,在Common Voice数据集上微调。模型在测试集上达到8.82%词错误率和2.58%字符错误率,可直接处理16kHz采样的语音输入。项目提供使用示例和评估脚本,便于用户应用和评估。模型采用16kHz采样率,无需额外语言模型即可使用。项目还包含详细的使用说明和评估方法,有助于研究人员和开发者快速集成和测试。
faster-distil-whisper-medium.en - 基于CTranslate2的Whisper medium.en模型语音识别工具
模型faster-whisper模型转换Whisper开源项目Huggingface语音识别CTranslate2Github
该项目将distil-whisper/distil-medium.en模型转换为CTranslate2格式,用于英语语音识别。通过faster-whisper库,实现了高效的音频转录功能。项目提供简洁的Python接口,支持FP16模型权重,并允许灵活选择计算类型。这种优化使得该工具适用于各种需要快速、准确英语语音识别的应用场景。
whisperkit-coreml - 针对苹果芯片优化的本地化语音识别开源框架
Huggingface模型设备端语音识别CoreMLGithub开源项目Apple SiliconWhisperKit
WhisperKit是一个为苹果芯片设备优化的本地语音识别框架,提供高性能的语音转文本功能。该开源项目托管于GitHub,开发者可以通过Hugging Face上的基准测试评估其在实际设备上的表现。WhisperKit使iOS和macOS应用能够实现先进的本地语音识别,无需依赖云服务。
wav2vec2-hausa2-demo-colab - wav2vec2-large-xlsr-53 微调的 Hausa 语音识别模型
模型wav2vec2Github语音识别Hausa语深度学习Huggingface开源项目自然语言处理
wav2vec2-large-xlsr-53 模型在 Common Voice 数据集上微调,专门用于 Hausa 语音识别。模型在评估集上达到 0.7237 的词错误率,为 Hausa 语音识别提供了基础解决方案。尽管训练细节有限,但采用了 Adam 优化器和混合精度训练等先进技术,为进一步改进奠定了基础。这个开源的 Hausa 语音识别模型可用于语音转文本、语言学研究或开发针对 Hausa 语言的语音应用。它展示了迁移学习在低资源语言处理中的潜力,为非洲语言技术的发展贡献力量。
wav2vec2-large-xlsr-53-telugu - 基于Wav2Vec2的泰卢固语语音识别模型
Telugu语言模型OpenSLR数据集Github语音识别开源项目HuggingfaceWav2Vec2自然语言处理
这是一个基于Wav2Vec2-Large-XLSR-53模型在OpenSLR SLR66泰卢固语数据集上微调的语音识别模型。模型在测试集上达到44.98%的词错误率(WER),可直接用于16kHz采样的泰卢固语语音识别。项目包含使用说明、评估方法和训练过程,为泰卢固语语音识别提供了一个开源解决方案。
wav2vec2-large-xlsr-malayalam - 基于wav2vec2的马来亚拉姆语语音识别模型
MalayalamHuggingface模型语音识别模型微调Github开源项目Wav2Vec2XLSR
这个项目是基于wav2vec2-large-xlsr-53模型针对马来亚拉姆语优化的语音识别系统。利用多个马来亚拉姆语语音数据集训练,测试集词错误率达28.43%。模型支持16kHz采样的语音输入,无需额外语言模型。项目提供了使用指南、评估方法和训练流程,便于部署和进一步改进。
nb-whisper-large-beta - 挪威国家图书馆开发的多语言语音识别模型NB-Whisper
Huggingface模型机器学习语音识别人工智能Github开源项目挪威语NB-Whisper
NB-Whisper是挪威国家图书馆开发的自动语音识别和语音翻译模型系列。基于OpenAI的Whisper架构,使用20,000小时标注数据训练,支持挪威语、挪威博克马尔语、挪威尼诺斯克语和英语。该模型能将口语转换为语法正确的书面语句,目前处于公开测试阶段,提供从tiny到large共5种规模可供选择。NB-Whisper在挪威语语音识别领域达到了最先进水平,但仍存在幻觉和丢失部分转录内容的问题。
wav2vec2-large-960h - 大规模预训练语音识别模型实现低资源高性能
Huggingface模型深度学习语音识别LibrispeechGithub开源项目自然语言处理Wav2Vec2
Wav2Vec2-Large-960h是Facebook开发的预训练语音识别模型,在960小时LibriSpeech数据上微调。采用自监督学习从原始音频学习表示,在低资源场景下表现优异。LibriSpeech测试集上词错误率为1.8/3.3。模型可用于语音转写,提供了详细使用示例。
ultravox-v0_3 - 集成语音和文本输入的多模态AI模型
多模态模型WhisperHuggingface模型Llama语音识别Github开源项目Ultravox
Ultravox-v0_3是Fixie.ai开发的多模态语音大语言模型,结合Llama3.1-8B-Instruct和Whisper-small技术。该模型可同时处理语音和文本输入,适用于语音助手、翻译和分析等场景。通过知识蒸馏方法,仅训练多模态适配器,保持基础模型不变。Ultravox在语音识别和翻译任务中展现出优秀性能,为语音交互应用提供了新的可能性。
distil-large-v3 - 经过蒸馏的快速轻量级语音识别模型
模型压缩transformersHuggingface模型语音识别Github开源项目自然语言处理Distil-Whisper
distil-large-v3是一个经过知识蒸馏的语音识别模型,模型大小比Whisper large-v3减少44%,推理速度提升6.3倍,同时保持相近的识别准确率。支持短语音和长语音转录,兼容多种主流语音识别框架,为用户提供快速、轻量且准确的语音识别功能。
wav2vec2-xls-r-300m-hebrew - XLS-R微调的希伯来语语音识别模型
Huggingface模型语音识别XLS-RGithub开源项目Wav2Vec2微调Hebrew
该开源项目提供了一个针对希伯来语优化的语音识别模型。基于wav2vec2-xls-r-300m架构,通过两阶段训练方法在私有数据集上进行微调。模型在测试集上实现23.18%的词错误率,展示了特定语言语音识别优化的有效途径。这一模型为希伯来语自动语音识别研究和应用提供了实用工具。
wav2vec2-conformer-rope-large-960h-ft - Wav2Vec2 Conformer模型在Librispeech数据集上的语音识别应用
Huggingface模型语音识别Github开源项目LibriSpeechWav2Vec2自然语言处理Conformer
这是一个基于Wav2Vec2 Conformer架构的语音识别模型,采用旋转位置嵌入技术,在Librispeech数据集的960小时音频上完成预训练和微调。模型在Librispeech测试集上表现优异,'clean'和'other'子集的词错误率分别为1.96%和3.98%。支持16kHz采样的语音输入,适用于精确的语音转文本任务。
相关文章
Deepgram Aura:最强的文本转语音模型,人工智能客服时代真的来了
2024年08月03日
STT: 离线语音识别转文字工具
2024年08月29日
PaddleSpeech:百度飞桨开源的功能强大的语音处理工具包
2024年08月30日
Leon: 开源个人助理的未来
2024年08月30日
DeepSpeech:开源嵌入式语音识别引擎
2024年08月30日
Vosk-API: 开源离线语音识别工具包
2024年08月30日
wav2letter++: Facebook AI Research的自动语音识别工具包
2024年08月30日
FunClip: 开源、精准、易用的视频语音识别与剪辑工具
2024年08月30日
开源AI客服,100人的客服团队未来只需1人
2024年08月02日