#语音识别

wav2vec2-large-xlsr-53-english - XLSR-53微调的英语语音识别模型

XLSR-53Common VoiceGithubHuggingface模型开源项目自然语言处理语音识别Wav2Vec2

该模型基于wav2vec2-large-xlsr-53在Common Voice 6.1英语数据集上微调而来。在Common Voice英语测试集上，模型达到19.06%词错率和7.69%字符错误率。支持16kHz采样率语音输入，可单独使用或结合语言模型。提供HuggingSound库和自定义脚本的Python示例代码，方便用户进行语音识别。

wav2vec2-xls-r-300m - Facebook开发的大规模多语言预训练语音模型

Huggingface模型wav2vec 2.0语音识别XLS-RGithub预训练模型开源项目多语言模型

wav2vec2-xls-r-300m是Facebook AI研发的大规模多语言预训练语音模型。该模型在436,000小时的未标记语音数据上预训练,涵盖128种语言,采用wav2vec 2.0目标函数,拥有3亿参数。它可应用于自动语音识别、翻译和分类等任务,在CoVoST-2语音翻译基准测试中显著提升了性能。

wav2vec2-large-xlsr-53-japanese - 基于Wav2Vec2的日语语音识别模型

Huggingface模型语音识别Github日语开源项目Wav2Vec2XLSR-53Common Voice

该模型是在facebook/wav2vec2-large-xlsr-53基础上，使用日语语音数据集微调而来的语音识别模型。在Common Voice日语测试集上，其词错误率(WER)为81.80%，字符错误率(CER)为20.16%，优于同类模型。它可直接用于日语语音转文本，无需额外语言模型。模型要求输入音频采样率为16kHz。

whisper-large-v3-turbo - OpenAI Whisper large-v3-turbo 快速多语言语音识别与翻译模型

AI模型WhisperHuggingface模型语音识别TransformersGithub多语言开源项目

Whisper large-v3-turbo是OpenAI推出的优化版语音识别和翻译模型。它在保持高质量输出的同时大幅提升了处理速度，支持100多种语言。该模型在噪声环境和不同口音下表现稳定，具备零样本学习能力。适用于实时转录、字幕生成等场景，代表了语音AI技术的最新进展。

faster-whisper-large-v2 - 基于Whisper large-v2的高效多语言语音转文本模型

WhisperHuggingface模型CTranslate2语音识别Github开源项目自然语言处理模型转换

该项目是OpenAI Whisper large-v2模型的CTranslate2转换版本，旨在提供高效的自动语音识别功能。支持超过100种语言，通过faster-whisper库实现简便调用。模型采用FP16格式存储，支持运行时计算类型调整，以优化性能。这一工具能够快速准确地完成语音到文本的转换，适用于多种应用场景，为开发者提供了强大的语音识别解决方案。

wav2vec2-large-xlsr-53-chinese-zh-cn - 中文自动语音识别模型提供广泛应用支持

HuggingSound模型Common Voice语音转录Github语音识别XLSR Wav2Vec2Huggingface开源项目

该模型基于Common Voice、CSS10和ST-CMDS数据集，对facebook的wav2vec2-large-xlsr-53进行了微调，以实现中文自动语音识别。模型能够处理16kHz采样率的语音输入，可通过HuggingSound库直接进行语音转录或使用定制推理脚本。评估结果显示，模型在Common Voice测试数据集上WER为82.37%，CER为19.03%。感谢OVHcloud提供的GPU支持，该模型适用于医药、教育等领域语音数据处理。

speaker-diarization-3.1 - 提升语音处理的开源说话人分区技术

模型说话人分离Github音频处理语音识别深度学习Huggingface开源项目pyannote

该开源语音分区模型应用了纯PyTorch，替换了存在问题的onnxruntime，以简化部署流程并可能提高推断效率。此工具接受16kHz的单声道音频输入，能够自动混合多声道音频为单声道，并支持音频的自动重采样。其高效性能允许在CPU或GPU上运行，同时支持从内存加载音频以加快处理速度。

speaker-diarization - 高效实时的开源语音说话人分割系统

模型说话人分离Github音频处理语音识别开源项目Huggingface机器学习pyannote

pyannote/speaker-diarization是一个高效的开源说话人分割系统,支持指定说话人数量等高级功能。该系统在多个基准数据集上实现较低的分割错误率,无需人工调整。其实时因子约为2.5%,可快速处理大量音频。项目还提供详细的技术报告和适配指南,方便用户根据需求进行调整。

wav2vec2-large-xlsr-53-russian - 基于XLSR-53的俄语语音识别微调模型

模型俄语Common VoiceGithubXLSR-53语音识别开源项目HuggingfaceWav2Vec2

该项目是一个基于wav2vec2-large-xlsr-53的俄语语音识别微调模型。经Common Voice 6.1和CSS10数据集训练，适用于16kHz采样的语音输入。模型在Common Voice ru测试集上实现13.3%词错误率和2.88%字符错误率，加入语言模型后性能提升至9.57%和2.24%。支持通过HuggingSound库或自定义脚本使用，可应用于多种俄语语音识别场景。

wav2vec2-large-xlsr-53-portuguese - XLSR-53微调的葡萄牙语语音识别模型

模型Wav2Vec2Common Voice葡萄牙语开源项目HuggingfaceXLSR-53语音识别Github

此语音识别模型通过在Common Voice 6.1数据集上微调XLSR-53模型，专门针对葡萄牙语优化。在测试中，模型表现优异，词错误率为11.31%，字符错误率为3.74%。模型设计用于处理16kHz采样率的语音输入，可独立使用或与语言模型结合以提升性能。项目还包含详细的使用说明和评估工具，方便研究者和开发者快速应用和测试。

whisper-large-v3 - 突破性多语言语音识别与翻译模型

模型OpenAI多语言语音翻译WhisperGithub语音识别Huggingface开源项目

Whisper large-v3是OpenAI开发的新一代语音识别和翻译模型,支持100多种语言。相比前代模型,它采用128个梅尔频率通道并新增粤语语言标记,将各语言错误率降低10-20%。模型可用于语音转录和翻译任务,易于集成应用。Whisper large-v3展现出卓越的泛化能力,为语音识别技术带来重大进展。

wav2vec2-base-960h - Facebook开发的高效语音识别模型

模型GithubWav2Vec2开源项目Huggingface语音识别LibriSpeech自然语言处理深度学习

wav2vec2-base-960h是Facebook开发的语音识别模型，基于960小时LibriSpeech数据集训练。在LibriSpeech clean/other测试集上，词错误率分别为3.4%和8.6%。模型可从原始音频学习表征，仅需1小时标记数据即可超越现有方法，展示了低资源语音识别的潜力。

wav2vec2-large-robust-24-ft-age-gender - Wav2vec 2.0驱动的24层神经网络实现音频年龄性别识别

模型音频分类开源项目Huggingface年龄识别性别识别Wav2vec 2.0语音识别Github

项目采用Wav2vec 2.0架构，构建了24层深度神经网络用于音频年龄和性别识别。通过多数据集微调，模型能准确预测0-100岁年龄段，并区分说话者为儿童、女性或男性。额外功能包括输出最终transformer层的池化状态。支持ONNX格式导出，并提供全面使用指南，为音频分析和语音处理研究提供了有力支持。

wav2vec2-large-xls-r-300m-Urdu - 基于wav2vec2的乌尔都语语音识别模型

Urdu语音识别Github模型模型微调Common Voice开源项目Huggingfacewav2vec2

这是一个基于wav2vec2-xls-r-300m在Common Voice 8数据集上微调的乌尔都语语音识别模型。模型在测试集上达到39.89%的词错误率和16.7%的字符错误率。通过200轮训练，采用线性学习率调度和Adam优化器。模型支持简单的Python代码推理，并可与语言模型集成以提升性能。

Wav2Vec2-large-xlsr-hindi - 针对印地语优化的开源语音识别模型

Huggingface模型深度学习语音识别Github开源项目自然语言处理Wav2Vec2Hindi

Wav2Vec2-large-xlsr-hindi是一个专为印地语优化的开源语音识别模型。该模型基于Facebook的wav2vec2-large-xlsr-53架构，通过低资源印度语言多语言ASR挑战数据集进行微调。适用于16kHz采样的语音输入，无需额外语言模型即可直接使用。在Common Voice印地语测试集上，模型达到72.62%的词错误率。项目提供了完整的使用指南、评估方法和训练脚本，为研究人员的进一步开发和应用提供了便利。

clap-htsat-unfused - CLAP音频-文本预训练模型实现零样本音频分类

音频嵌入Huggingface模型多模态学习语音识别CLAPGithub开源项目零样本分类

CLAP是一个基于对比学习的音频-文本预训练模型,利用LAION-Audio-630K数据集进行训练。该模型通过特征融合和关键词增强技术,能够处理不同长度的音频输入,在文本到音频检索、零样本音频分类等任务中表现优异。CLAP在零样本设置下达到了领先水平,可用于零样本音频分类或音频和文本特征提取。

mms-1b-all - 大规模多语言语音识别模型支持超1100种语言

多语言语音Huggingface模型语音识别Github开源项目自然语言处理Wav2Vec2MMS

该模型是Meta多语言语音项目的重要成果,基于Wav2Vec2架构开发。通过适配器模型,可实现1162种语言的语音转录。模型包含10亿参数,由facebook/mms-1b微调而来。支持便捷的目标语言切换,能够进行多语种语音识别,尤其为低资源语言提供了可靠的语音技术解决方案。

hubert-large-ls960-ft - Facebook开发的HuBERT大型语音识别模型实现低错误率转录

Huggingface模型机器学习语音识别LibrispeechGithub开源项目HuBERT自监督学习

HuBERT-Large-LS960-FT是Facebook AI开发的大型语音识别模型，在960小时LibriSpeech数据集上微调。该模型处理16kHz采样语音，在LibriSpeech和Libri-light基准测试中表现优异，显著降低词错误率。采用自监督学习方法，结合声学和语言模型，为语音识别、生成和压缩提供强大表示学习能力。

reazonspeech-nemo-v2 - 改进后的Conformer架构实现日语长音频自动语音识别

Huggingface模型NeMo语音识别Github日语开源项目ReazonSpeechConformer

reazonspeech-nemo-v2是一个基于改进Conformer架构的日语自动语音识别模型。它采用Longformer注意力机制和RNN-T结构，可处理长达数小时的音频。模型在ReazonSpeech v2.0语料库上训练，参数量为619M。通过reazonspeech库，用户可便捷地使用该模型进行日语语音识别。

speakerverification_en_titanet_large - NVIDIA TitaNet-Large英语说话人识别模型

模型说话人验证TitaNet说话人识别Github语音识别Huggingface开源项目NeMo

NVIDIA TitaNet-Large是一个专为英语说话人验证和分割设计的深度学习模型。它采用深度可分离1D卷积架构，参数量约23M，能从16kHz单声道音频中提取说话人特征。模型在VoxCeleb1等数据集上表现优异，可通过NVIDIA NeMo工具包进行推理和微调。适用于说话人验证、分割等多种语音识别任务。

AST-VoxCelebSpoof-Synthetic-Voice-Detection - AST模型实现超高精度合成语音识别

ASTHuggingface合成语音检测模型语音识别VoxCelebSpoofGithub开源项目模型训练

AST-VoxCelebSpoof-Synthetic-Voice-Detection是基于MIT/ast-finetuned-audioset-10-10-0.4593模型微调而来，专注于合成语音识别。该模型在VoxCelebSpoof数据集上训练，评估结果显示准确率和F1值均高达99.99%。采用Adam优化器和线性学习率调度，经3轮训练达到最佳效果。此模型为语音真实性验证和相关安全应用提供了高精度解决方案。该模型适用于音频安全、声纹验证等领域，但可能需要在不同语言环境下进行进一步测试和优化。

wav2vec2-large-xlsr-53-dutch - XLSR-53模型在荷兰语语音识别上的应用与性能

模型Common VoiceGithubXLSR-53语音识别荷兰语开源项目HuggingfaceWav2Vec2

这是一个基于facebook/wav2vec2-large-xlsr-53模型，针对荷兰语语音识别任务进行微调的模型。通过使用Common Voice 6.1和CSS10数据集进行训练，该模型在Common Voice nl测试集上达到了15.72%的词错误率和5.35%的字符错误率。模型设计用于处理16kHz采样率的语音输入，可单独使用或与语言模型配合。项目详细说明了使用方法和评估流程，为荷兰语自动语音识别提供了一个有效的开源解决方案。

mms-300m-1130-forced-aligner - 多语言音频文本强制对齐Python工具包

强制对齐CTC模型Huggingface模型语音识别Github开源项目音频处理Hugging Face

这是一个基于Hugging Face预训练模型的Python包，用于实现音频和文本的强制对齐。该工具采用了优化的实现方式，相比TorchAudio的强制对齐API，能显著降低内存使用。它支持超过100种语言，提供简便的安装和使用方法。该包可以生成精确的词级时间戳，适用于语音识别、字幕生成、语音合成等多种应用场景。此外，它还支持音频批处理和自定义设备选择，提高了处理效率。

wav2vec2-large-xlsr-53-polish - 基于XLSR-53的波兰语语音识别模型

模型Common Voice波兰语Github语音识别XLSR Wav2Vec2Huggingface开源项目自然语言处理

此模型基于wav2vec2-large-xlsr-53，在波兰语Common Voice数据集上进行微调。在测试集上达到14.21%词错率和3.49%字错率。模型支持16kHz采样率的波兰语语音输入，可用于自动语音识别任务。用户可使用HuggingSound库或自定义脚本轻松实现推理。

hubert-base-ls960 - 自监督语音表示学习模型HuBERT助力语音识别进步

Huggingface模型Hubert语音识别Github预训练模型开源项目自监督学习语音表示

hubert-base-ls960是一个创新的自监督语音表示学习模型,采用Hidden-Unit BERT (HuBERT)方法。该模型通过离线聚类为BERT类预测损失提供对齐标签,在LibriSpeech和Libri-light测试中表现优异,显著降低了词错误率。作为语音识别、生成和压缩的基础模型,hubert-base-ls960为相关研究和应用提供了有力支持。

wav2vec2-xlsr-53-espeak-cv-ft - 基于Wav2Vec2的跨语言零样本音素识别模型

Huggingface模型语音识别Github开源项目Wav2Vec2跨语言识别音素识别多语言模型

此模型在wav2vec2-large-xlsr-53预训练基础上，利用多语言Common Voice数据集微调，实现了多语言音素识别。通过将训练语言音素映射至目标语言，该模型采用简单有效的跨语言零样本学习方法。相比先前研究，此方法显著提升了性能，为多语言语音识别领域提供了一个简洁而强大的解决方案。

faster-whisper-base - OpenAI Whisper模型在CTranslate2格式下的应用

WhisperHuggingface模型CTranslate2语音识别Github开源项目自然语言处理模型转换

本项目将OpenAI Whisper base模型转换为CTranslate2格式，支持多语种语音识别。适用于CTranslate2及其衍生项目如faster-whisper，并提供Python代码示例展示音频转录过程。模型采用FP16格式，可灵活调整计算类型。项目详细说明了转换过程，为开发者提供了便捷的语音识别工具。

autonlp-Gibberish-Detector-492513457 - 英语无意义文本智能分类模型

模型Github开源项目Huggingface机器学习AutoNLP语音识别自然语言处理垃圾信息过滤

这个项目提供了一个基于机器学习的英语文本分类模型，能够有效识别和分类无意义文本(gibberish)。模型采用多级分类方法，可区分噪音、词语杂烩、轻微无意义和正常文本四种类型。经AutoNLP训练后，模型在验证集上的准确率达97.36%。该模型可通过API或Python代码集成到各种应用中，有助于提升聊天机器人、内容审核等系统的文本处理能力。

wav2vec2-base - Facebook开发的语音表征学习模型实现低资源语音识别

模型自监督学习语音预训练Github语音识别深度学习开源项目HuggingfaceWav2Vec2

Wav2Vec2-Base是Facebook开发的语音预训练模型，基于16kHz采样语音音频。该模型通过掩蔽输入语音的潜在空间和解决对比学习任务，学习语音表征。在LibriSpeech基准测试中，即使只使用少量标注数据，也能取得优异成绩，证明了低资源语音识别的可行性。研究人员可以利用此模型进行微调，应用于不同的语音识别任务。

spkrec-ecapa-voxceleb - 基于SpeechBrain的ECAPA-TDNN说话人验证系统

SpeechBrain说话人验证ECAPA-TDNNHuggingface模型VoxCeleb语音识别Github开源项目

该项目基于SpeechBrain框架，提供预训练的ECAPA-TDNN模型用于说话人验证和嵌入提取。模型在VoxCeleb 1和2数据集上训练，在VoxCeleb1测试集达到0.80%的错误等价率。系统架构结合卷积和残差块，采用注意力统计池化提取嵌入，并使用加性边际Softmax损失训练。项目提供简单的接口，方便用户进行说话人验证或嵌入提取，可应用于多种语音识别场景。

wavlm-libri-clean-100h-base-plus - WavLM微调模型在LibriSpeech数据集上的语音识别性能

微调模型Github开源项目Huggingface语音识别LibriSpeech自然语言处理WavLM

本模型是基于microsoft/wavlm-base-plus在LibriSpeech ASR - CLEAN数据集上微调而来。经过3个epoch的训练，模型在评估集上达到0.0819的损失和6.83%的词错率。训练过程采用多GPU并行计算，使用Adam优化器和线性学习率调度器。模型的词错率从初始的100%显著降低至约7%，体现了其在语音识别任务上的卓越表现。模型基于Transformers 4.15.0.dev0和PyTorch 1.9.0+cu111框架，在8个GPU上进行分布式训练，并采用了Native AMP混合精度训练技术，有效提高了计算效率。

parakeet-tdt-1.1b - 先进的FastConformer-TDT英语语音识别模型

模型HuggingfaceFastConformerGithub语音识别TDTNVIDIA开源项目NeMo

parakeet-tdt-1.1b是NVIDIA NeMo和Suno.ai团队联合开发的英语语音识别模型。采用FastConformer-TDT架构，拥有11亿参数，在多个测试集上表现优异，LibriSpeech clean测试集词错误率为1.39%。可通过NeMo工具包轻松集成使用，适用于多种语音转文本场景。

wav2vec2-xls-r-1b-portuguese - XLS-R 1B微调的葡萄牙语语音识别模型

模型Common Voice葡萄牙语Github语音识别XLS-R开源项目HuggingfaceWav2Vec2

该项目基于XLS-R 1B模型微调，专注于葡萄牙语语音识别。模型在Common Voice 8.0等多个数据集上训练，测试集词错误率达8.7%。支持16kHz采样率语音输入，可通过HuggingSound库或自定义脚本使用。项目为葡萄牙语语音识别研究和应用提供了实用工具。

kotoba-whisper-v2.1 - 日语语音识别模型优化版：提升精度和功能

模型Kotoba-WhisperGithubHugging Face语音识别日语Huggingface开源项目自然语言处理

Kotoba-Whisper-v2.1是一款基于Whisper的日语语音识别模型。该模型通过集成额外的后处理功能，如添加标点符号，提高了识别准确度。在多个日语语音数据集上，其表现超越了原版Whisper模型。模型支持使用Transformers库进行推理，并可选用Flash Attention 2等技术优化性能。

wav2vec2-large-xlsr-53-th - 基于Common Voice数据集微调的泰语语音识别模型

模型Common VoiceGithub语音识别泰语开源项目HuggingfaceWav2Vec2自然语言处理

该项目提供了一个基于wav2vec2-large-xlsr-53架构的泰语语音识别模型。模型使用Common Voice 7.0数据集进行微调，在测试集上实现了13.63%的词错率和2.81%的字符错率。项目详细介绍了数据预处理、模型训练和评估流程，并与主流商业API进行了性能对比。此模型可用于开发泰语语音转文本应用，为泰语自然语言处理研究提供了有价值的资源。

wav2vec2-large-xlsr-korean - 基于wav2vec2的韩语语音识别模型实现高精度自动转写

模型Wav2Vec2XLSR开源项目韩语HuggingfaceZeroth Korean语音识别Github

wav2vec2-large-xlsr-korean是一个开源的韩语自动语音识别模型。该模型基于wav2vec2-large-xlsr架构，在Zeroth Korean数据集上训练和评估。模型展现出卓越性能，词错误率(WER)为4.74%，字符错误率(CER)为1.78%。它能够直接将音频转换为文本，为韩语语音识别应用提供了高精度的开源解决方案。

Deepgram Aura:最强的文本转语音模型，人工智能客服时代真的来了

2024年08月03日

STT: 离线语音识别转文字工具

2024年08月29日

PaddleSpeech:百度飞桨开源的功能强大的语音处理工具包

2024年08月30日

Leon: 开源个人助理的未来

2024年08月30日

DeepSpeech:开源嵌入式语音识别引擎

2024年08月30日

Vosk-API: 开源离线语音识别工具包

2024年08月30日

wav2letter++: Facebook AI Research的自动语音识别工具包

2024年08月30日

FunClip: 开源、精准、易用的视频语音识别与剪辑工具

2024年08月30日

开源AI客服，100人的客服团队未来只需1人

2024年08月02日

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com