#语音识别

wav2vec2-large-xlsr-53-english - XLSR-53微调的英语语音识别模型
XLSR-53Common VoiceGithubHuggingface模型开源项目自然语言处理语音识别Wav2Vec2
该模型基于wav2vec2-large-xlsr-53在Common Voice 6.1英语数据集上微调而来。在Common Voice英语测试集上,模型达到19.06%词错率和7.69%字符错误率。支持16kHz采样率语音输入,可单独使用或结合语言模型。提供HuggingSound库和自定义脚本的Python示例代码,方便用户进行语音识别。
wav2vec2-xls-r-300m - Facebook开发的大规模多语言预训练语音模型
Huggingface模型wav2vec 2.0语音识别XLS-RGithub预训练模型开源项目多语言模型
wav2vec2-xls-r-300m是Facebook AI研发的大规模多语言预训练语音模型。该模型在436,000小时的未标记语音数据上预训练,涵盖128种语言,采用wav2vec 2.0目标函数,拥有3亿参数。它可应用于自动语音识别、翻译和分类等任务,在CoVoST-2语音翻译基准测试中显著提升了性能。
wav2vec2-large-xlsr-53-japanese - 基于Wav2Vec2的日语语音识别模型
Huggingface模型语音识别Github日语开源项目Wav2Vec2XLSR-53Common Voice
该模型是在facebook/wav2vec2-large-xlsr-53基础上,使用日语语音数据集微调而来的语音识别模型。在Common Voice日语测试集上,其词错误率(WER)为81.80%,字符错误率(CER)为20.16%,优于同类模型。它可直接用于日语语音转文本,无需额外语言模型。模型要求输入音频采样率为16kHz。
whisper-large-v3-turbo - OpenAI Whisper large-v3-turbo 快速多语言语音识别与翻译模型
AI模型WhisperHuggingface模型语音识别TransformersGithub多语言开源项目
Whisper large-v3-turbo是OpenAI推出的优化版语音识别和翻译模型。它在保持高质量输出的同时大幅提升了处理速度,支持100多种语言。该模型在噪声环境和不同口音下表现稳定,具备零样本学习能力。适用于实时转录、字幕生成等场景,代表了语音AI技术的最新进展。
faster-whisper-large-v2 - 基于Whisper large-v2的高效多语言语音转文本模型
WhisperHuggingface模型CTranslate2语音识别Github开源项目自然语言处理模型转换
该项目是OpenAI Whisper large-v2模型的CTranslate2转换版本,旨在提供高效的自动语音识别功能。支持超过100种语言,通过faster-whisper库实现简便调用。模型采用FP16格式存储,支持运行时计算类型调整,以优化性能。这一工具能够快速准确地完成语音到文本的转换,适用于多种应用场景,为开发者提供了强大的语音识别解决方案。
wav2vec2-large-xlsr-53-chinese-zh-cn - 中文自动语音识别模型提供广泛应用支持
HuggingSound模型Common Voice语音转录Github语音识别XLSR Wav2Vec2Huggingface开源项目
该模型基于Common Voice、CSS10和ST-CMDS数据集,对facebook的wav2vec2-large-xlsr-53进行了微调,以实现中文自动语音识别。模型能够处理16kHz采样率的语音输入,可通过HuggingSound库直接进行语音转录或使用定制推理脚本。评估结果显示,模型在Common Voice测试数据集上WER为82.37%,CER为19.03%。感谢OVHcloud提供的GPU支持,该模型适用于医药、教育等领域语音数据处理。
speaker-diarization-3.1 - 提升语音处理的开源说话人分区技术
模型说话人分离Github音频处理语音识别深度学习Huggingface开源项目pyannote
该开源语音分区模型应用了纯PyTorch,替换了存在问题的onnxruntime,以简化部署流程并可能提高推断效率。此工具接受16kHz的单声道音频输入,能够自动混合多声道音频为单声道,并支持音频的自动重采样。其高效性能允许在CPU或GPU上运行,同时支持从内存加载音频以加快处理速度。
speaker-diarization - 高效实时的开源语音说话人分割系统
模型说话人分离Github音频处理语音识别开源项目Huggingface机器学习pyannote
pyannote/speaker-diarization是一个高效的开源说话人分割系统,支持指定说话人数量等高级功能。该系统在多个基准数据集上实现较低的分割错误率,无需人工调整。其实时因子约为2.5%,可快速处理大量音频。项目还提供详细的技术报告和适配指南,方便用户根据需求进行调整。
wav2vec2-large-xlsr-53-russian - 基于XLSR-53的俄语语音识别微调模型
模型俄语Common VoiceGithubXLSR-53语音识别开源项目HuggingfaceWav2Vec2
该项目是一个基于wav2vec2-large-xlsr-53的俄语语音识别微调模型。经Common Voice 6.1和CSS10数据集训练,适用于16kHz采样的语音输入。模型在Common Voice ru测试集上实现13.3%词错误率和2.88%字符错误率,加入语言模型后性能提升至9.57%和2.24%。支持通过HuggingSound库或自定义脚本使用,可应用于多种俄语语音识别场景。
wav2vec2-large-xlsr-53-portuguese - XLSR-53微调的葡萄牙语语音识别模型
模型Wav2Vec2Common Voice葡萄牙语开源项目HuggingfaceXLSR-53语音识别Github
此语音识别模型通过在Common Voice 6.1数据集上微调XLSR-53模型,专门针对葡萄牙语优化。在测试中,模型表现优异,词错误率为11.31%,字符错误率为3.74%。模型设计用于处理16kHz采样率的语音输入,可独立使用或与语言模型结合以提升性能。项目还包含详细的使用说明和评估工具,方便研究者和开发者快速应用和测试。
whisper-large-v3 - 突破性多语言语音识别与翻译模型
模型OpenAI多语言语音翻译WhisperGithub语音识别Huggingface开源项目
Whisper large-v3是OpenAI开发的新一代语音识别和翻译模型,支持100多种语言。相比前代模型,它采用128个梅尔频率通道并新增粤语语言标记,将各语言错误率降低10-20%。模型可用于语音转录和翻译任务,易于集成应用。Whisper large-v3展现出卓越的泛化能力,为语音识别技术带来重大进展。
wav2vec2-base-960h - Facebook开发的高效语音识别模型
模型GithubWav2Vec2开源项目Huggingface语音识别LibriSpeech自然语言处理深度学习
wav2vec2-base-960h是Facebook开发的语音识别模型,基于960小时LibriSpeech数据集训练。在LibriSpeech clean/other测试集上,词错误率分别为3.4%和8.6%。模型可从原始音频学习表征,仅需1小时标记数据即可超越现有方法,展示了低资源语音识别的潜力。
wav2vec2-large-robust-24-ft-age-gender - Wav2vec 2.0驱动的24层神经网络实现音频年龄性别识别
模型音频分类开源项目Huggingface年龄识别性别识别Wav2vec 2.0语音识别Github
项目采用Wav2vec 2.0架构,构建了24层深度神经网络用于音频年龄和性别识别。通过多数据集微调,模型能准确预测0-100岁年龄段,并区分说话者为儿童、女性或男性。额外功能包括输出最终transformer层的池化状态。支持ONNX格式导出,并提供全面使用指南,为音频分析和语音处理研究提供了有力支持。
wav2vec2-large-xls-r-300m-Urdu - 基于wav2vec2的乌尔都语语音识别模型
Urdu语音识别Github模型模型微调Common Voice开源项目Huggingfacewav2vec2
这是一个基于wav2vec2-xls-r-300m在Common Voice 8数据集上微调的乌尔都语语音识别模型。模型在测试集上达到39.89%的词错误率和16.7%的字符错误率。通过200轮训练,采用线性学习率调度和Adam优化器。模型支持简单的Python代码推理,并可与语言模型集成以提升性能。
Wav2Vec2-large-xlsr-hindi - 针对印地语优化的开源语音识别模型
Huggingface模型深度学习语音识别Github开源项目自然语言处理Wav2Vec2Hindi
Wav2Vec2-large-xlsr-hindi是一个专为印地语优化的开源语音识别模型。该模型基于Facebook的wav2vec2-large-xlsr-53架构,通过低资源印度语言多语言ASR挑战数据集进行微调。适用于16kHz采样的语音输入,无需额外语言模型即可直接使用。在Common Voice印地语测试集上,模型达到72.62%的词错误率。项目提供了完整的使用指南、评估方法和训练脚本,为研究人员的进一步开发和应用提供了便利。
clap-htsat-unfused - CLAP音频-文本预训练模型实现零样本音频分类
音频嵌入Huggingface模型多模态学习语音识别CLAPGithub开源项目零样本分类
CLAP是一个基于对比学习的音频-文本预训练模型,利用LAION-Audio-630K数据集进行训练。该模型通过特征融合和关键词增强技术,能够处理不同长度的音频输入,在文本到音频检索、零样本音频分类等任务中表现优异。CLAP在零样本设置下达到了领先水平,可用于零样本音频分类或音频和文本特征提取。
mms-1b-all - 大规模多语言语音识别模型支持超1100种语言
多语言语音Huggingface模型语音识别Github开源项目自然语言处理Wav2Vec2MMS
该模型是Meta多语言语音项目的重要成果,基于Wav2Vec2架构开发。通过适配器模型,可实现1162种语言的语音转录。模型包含10亿参数,由facebook/mms-1b微调而来。支持便捷的目标语言切换,能够进行多语种语音识别,尤其为低资源语言提供了可靠的语音技术解决方案。
hubert-large-ls960-ft - Facebook开发的HuBERT大型语音识别模型实现低错误率转录
Huggingface模型机器学习语音识别LibrispeechGithub开源项目HuBERT自监督学习
HuBERT-Large-LS960-FT是Facebook AI开发的大型语音识别模型,在960小时LibriSpeech数据集上微调。该模型处理16kHz采样语音,在LibriSpeech和Libri-light基准测试中表现优异,显著降低词错误率。采用自监督学习方法,结合声学和语言模型,为语音识别、生成和压缩提供强大表示学习能力。
reazonspeech-nemo-v2 - 改进后的Conformer架构实现日语长音频自动语音识别
Huggingface模型NeMo语音识别Github日语开源项目ReazonSpeechConformer
reazonspeech-nemo-v2是一个基于改进Conformer架构的日语自动语音识别模型。它采用Longformer注意力机制和RNN-T结构,可处理长达数小时的音频。模型在ReazonSpeech v2.0语料库上训练,参数量为619M。通过reazonspeech库,用户可便捷地使用该模型进行日语语音识别。
speakerverification_en_titanet_large - NVIDIA TitaNet-Large英语说话人识别模型
模型说话人验证TitaNet说话人识别Github语音识别Huggingface开源项目NeMo
NVIDIA TitaNet-Large是一个专为英语说话人验证和分割设计的深度学习模型。它采用深度可分离1D卷积架构,参数量约23M,能从16kHz单声道音频中提取说话人特征。模型在VoxCeleb1等数据集上表现优异,可通过NVIDIA NeMo工具包进行推理和微调。适用于说话人验证、分割等多种语音识别任务。
AST-VoxCelebSpoof-Synthetic-Voice-Detection - AST模型实现超高精度合成语音识别
ASTHuggingface合成语音检测模型语音识别VoxCelebSpoofGithub开源项目模型训练
AST-VoxCelebSpoof-Synthetic-Voice-Detection是基于MIT/ast-finetuned-audioset-10-10-0.4593模型微调而来,专注于合成语音识别。该模型在VoxCelebSpoof数据集上训练,评估结果显示准确率和F1值均高达99.99%。采用Adam优化器和线性学习率调度,经3轮训练达到最佳效果。此模型为语音真实性验证和相关安全应用提供了高精度解决方案。该模型适用于音频安全、声纹验证等领域,但可能需要在不同语言环境下进行进一步测试和优化。
wav2vec2-large-xlsr-53-dutch - XLSR-53模型在荷兰语语音识别上的应用与性能
模型Common VoiceGithubXLSR-53语音识别荷兰语开源项目HuggingfaceWav2Vec2
这是一个基于facebook/wav2vec2-large-xlsr-53模型,针对荷兰语语音识别任务进行微调的模型。通过使用Common Voice 6.1和CSS10数据集进行训练,该模型在Common Voice nl测试集上达到了15.72%的词错误率和5.35%的字符错误率。模型设计用于处理16kHz采样率的语音输入,可单独使用或与语言模型配合。项目详细说明了使用方法和评估流程,为荷兰语自动语音识别提供了一个有效的开源解决方案。
mms-300m-1130-forced-aligner - 多语言音频文本强制对齐Python工具包
强制对齐CTC模型Huggingface模型语音识别Github开源项目音频处理Hugging Face
这是一个基于Hugging Face预训练模型的Python包,用于实现音频和文本的强制对齐。该工具采用了优化的实现方式,相比TorchAudio的强制对齐API,能显著降低内存使用。它支持超过100种语言,提供简便的安装和使用方法。该包可以生成精确的词级时间戳,适用于语音识别、字幕生成、语音合成等多种应用场景。此外,它还支持音频批处理和自定义设备选择,提高了处理效率。
wav2vec2-large-xlsr-53-polish - 基于XLSR-53的波兰语语音识别模型
模型Common Voice波兰语Github语音识别XLSR Wav2Vec2Huggingface开源项目自然语言处理
此模型基于wav2vec2-large-xlsr-53,在波兰语Common Voice数据集上进行微调。在测试集上达到14.21%词错率和3.49%字错率。模型支持16kHz采样率的波兰语语音输入,可用于自动语音识别任务。用户可使用HuggingSound库或自定义脚本轻松实现推理。
hubert-base-ls960 - 自监督语音表示学习模型HuBERT助力语音识别进步
Huggingface模型Hubert语音识别Github预训练模型开源项目自监督学习语音表示
hubert-base-ls960是一个创新的自监督语音表示学习模型,采用Hidden-Unit BERT (HuBERT)方法。该模型通过离线聚类为BERT类预测损失提供对齐标签,在LibriSpeech和Libri-light测试中表现优异,显著降低了词错误率。作为语音识别、生成和压缩的基础模型,hubert-base-ls960为相关研究和应用提供了有力支持。
wav2vec2-xlsr-53-espeak-cv-ft - 基于Wav2Vec2的跨语言零样本音素识别模型
Huggingface模型语音识别Github开源项目Wav2Vec2跨语言识别音素识别多语言模型
此模型在wav2vec2-large-xlsr-53预训练基础上,利用多语言Common Voice数据集微调,实现了多语言音素识别。通过将训练语言音素映射至目标语言,该模型采用简单有效的跨语言零样本学习方法。相比先前研究,此方法显著提升了性能,为多语言语音识别领域提供了一个简洁而强大的解决方案。
faster-whisper-base - OpenAI Whisper模型在CTranslate2格式下的应用
WhisperHuggingface模型CTranslate2语音识别Github开源项目自然语言处理模型转换
本项目将OpenAI Whisper base模型转换为CTranslate2格式,支持多语种语音识别。适用于CTranslate2及其衍生项目如faster-whisper,并提供Python代码示例展示音频转录过程。模型采用FP16格式,可灵活调整计算类型。项目详细说明了转换过程,为开发者提供了便捷的语音识别工具。
autonlp-Gibberish-Detector-492513457 - 英语无意义文本智能分类模型
模型Github开源项目Huggingface机器学习AutoNLP语音识别自然语言处理垃圾信息过滤
这个项目提供了一个基于机器学习的英语文本分类模型,能够有效识别和分类无意义文本(gibberish)。模型采用多级分类方法,可区分噪音、词语杂烩、轻微无意义和正常文本四种类型。经AutoNLP训练后,模型在验证集上的准确率达97.36%。该模型可通过API或Python代码集成到各种应用中,有助于提升聊天机器人、内容审核等系统的文本处理能力。
wav2vec2-base - Facebook开发的语音表征学习模型实现低资源语音识别
模型自监督学习语音预训练Github语音识别深度学习开源项目HuggingfaceWav2Vec2
Wav2Vec2-Base是Facebook开发的语音预训练模型,基于16kHz采样语音音频。该模型通过掩蔽输入语音的潜在空间和解决对比学习任务,学习语音表征。在LibriSpeech基准测试中,即使只使用少量标注数据,也能取得优异成绩,证明了低资源语音识别的可行性。研究人员可以利用此模型进行微调,应用于不同的语音识别任务。
spkrec-ecapa-voxceleb - 基于SpeechBrain的ECAPA-TDNN说话人验证系统
SpeechBrain说话人验证ECAPA-TDNNHuggingface模型VoxCeleb语音识别Github开源项目
该项目基于SpeechBrain框架,提供预训练的ECAPA-TDNN模型用于说话人验证和嵌入提取。模型在VoxCeleb 1和2数据集上训练,在VoxCeleb1测试集达到0.80%的错误等价率。系统架构结合卷积和残差块,采用注意力统计池化提取嵌入,并使用加性边际Softmax损失训练。项目提供简单的接口,方便用户进行说话人验证或嵌入提取,可应用于多种语音识别场景。
wavlm-libri-clean-100h-base-plus - WavLM微调模型在LibriSpeech数据集上的语音识别性能
微调模型Github开源项目Huggingface语音识别LibriSpeech自然语言处理WavLM
本模型是基于microsoft/wavlm-base-plus在LibriSpeech ASR - CLEAN数据集上微调而来。经过3个epoch的训练,模型在评估集上达到0.0819的损失和6.83%的词错率。训练过程采用多GPU并行计算,使用Adam优化器和线性学习率调度器。模型的词错率从初始的100%显著降低至约7%,体现了其在语音识别任务上的卓越表现。模型基于Transformers 4.15.0.dev0和PyTorch 1.9.0+cu111框架,在8个GPU上进行分布式训练,并采用了Native AMP混合精度训练技术,有效提高了计算效率。
parakeet-tdt-1.1b - 先进的FastConformer-TDT英语语音识别模型
模型HuggingfaceFastConformerGithub语音识别TDTNVIDIA开源项目NeMo
parakeet-tdt-1.1b是NVIDIA NeMo和Suno.ai团队联合开发的英语语音识别模型。采用FastConformer-TDT架构,拥有11亿参数,在多个测试集上表现优异,LibriSpeech clean测试集词错误率为1.39%。可通过NeMo工具包轻松集成使用,适用于多种语音转文本场景。
wav2vec2-xls-r-1b-portuguese - XLS-R 1B微调的葡萄牙语语音识别模型
模型Common Voice葡萄牙语Github语音识别XLS-R开源项目HuggingfaceWav2Vec2
该项目基于XLS-R 1B模型微调,专注于葡萄牙语语音识别。模型在Common Voice 8.0等多个数据集上训练,测试集词错误率达8.7%。支持16kHz采样率语音输入,可通过HuggingSound库或自定义脚本使用。项目为葡萄牙语语音识别研究和应用提供了实用工具。
kotoba-whisper-v2.1 - 日语语音识别模型优化版:提升精度和功能
模型Kotoba-WhisperGithubHugging Face语音识别日语Huggingface开源项目自然语言处理
Kotoba-Whisper-v2.1是一款基于Whisper的日语语音识别模型。该模型通过集成额外的后处理功能,如添加标点符号,提高了识别准确度。在多个日语语音数据集上,其表现超越了原版Whisper模型。模型支持使用Transformers库进行推理,并可选用Flash Attention 2等技术优化性能。
wav2vec2-large-xlsr-53-th - 基于Common Voice数据集微调的泰语语音识别模型
模型Common VoiceGithub语音识别泰语开源项目HuggingfaceWav2Vec2自然语言处理
该项目提供了一个基于wav2vec2-large-xlsr-53架构的泰语语音识别模型。模型使用Common Voice 7.0数据集进行微调,在测试集上实现了13.63%的词错率和2.81%的字符错率。项目详细介绍了数据预处理、模型训练和评估流程,并与主流商业API进行了性能对比。此模型可用于开发泰语语音转文本应用,为泰语自然语言处理研究提供了有价值的资源。
wav2vec2-large-xlsr-korean - 基于wav2vec2的韩语语音识别模型实现高精度自动转写
模型Wav2Vec2XLSR开源项目韩语HuggingfaceZeroth Korean语音识别Github
wav2vec2-large-xlsr-korean是一个开源的韩语自动语音识别模型。该模型基于wav2vec2-large-xlsr架构,在Zeroth Korean数据集上训练和评估。模型展现出卓越性能,词错误率(WER)为4.74%,字符错误率(CER)为1.78%。它能够直接将音频转换为文本,为韩语语音识别应用提供了高精度的开源解决方案。