#语音识别

hubert-large-ll60k - Facebook推出革新性语音表示学习模型

Huggingface模型Hubert语音识别Github语音表示学习预训练模型开源项目自监督学习

HuBERT是Facebook开发的自监督语音表示学习模型，专为语音识别、生成和压缩而设计。该模型采用离线聚类和BERT式预测损失，有效解决了语音学习中的多单元输入、无预训练词典和可变长度分段等问题。在LibriSpeech和Libri-light基准测试中，HuBERT展现出优异性能，特别是在challenging的dev-other和test-other子集上，相对词错误率(WER)分别降低了19%和13%。HuBERT的核心优势在于其依赖无监督聚类步骤的一致性，而非聚类标签的质量，为语音AI领域带来了新的研究方向。

wav2vec2-large-xlsr-53-german - 优化德语自动语音识别的开源模型

Common VoiceWav2Vec2德语语音识别深度学习Github模型开源项目Huggingface

本项目利用wav2vec2-large-xlsr-53-german模型对德语Common Voice数据集进行自动语音识别，得到WER为18.5%的结果。项目采用Torchaudio和Transformers库，并使用Resample进行音频预处理。该模型在语音转文字应用中具有广泛的研究价值。

wav2vec2-large-xlsr-53-french - 法语语音识别模型实现自动语音文本转录

开源项目模型Common VoiceGithubXLSR语音识别机器学习法语Huggingface

该开源模型通过针对法语的深度训练，实现了法语语音到文本的自动转录功能。模型支持处理16kHz采样率的语音输入，在标准测试集上展现出较低的错误率。模型提供完整的使用示例和评估工具，可用于法语语音识别相关应用开发。

whisper-base-bungoma.en - 基于Whisper的英语语音识别模型优化Azure数据集处理

机器学习GithubHuggingfaceAzure模型训练OpenAI Whisper语音识别开源项目模型

该语音识别系统通过微调openai/whisper-base.en基础模型，针对Azure数据集进行优化。模型采用了先进的优化算法，经过精细训练后词错误率降至25.28%，实现了稳定的英语语音识别效果。

wavlm-base-sv - WavLM预训练模型声纹识别与说话人验证系统

语音处理GithubWavLM自监督学习Huggingface语音识别开源项目模型说话人验证

WavLM是Microsoft开发的说话人验证预训练模型，基于16kHz采样语音训练，使用960小时Librispeech数据集预训练，并在VoxCeleb1数据集上进行X-Vector架构微调。模型通过话语和说话人对比学习，实现语音特征提取、身份验证及声纹识别。

overlapped-speech-detection - 开源重叠语音检测工具实现多人同时发言识别

语音识别pyannote语音重叠检测声纹分割模型Github音频处理Huggingface开源项目

开源重叠语音检测工具overlapped-speech-detection专注于识别音频中的多人同时发言片段，通过Python API接口快速部署实现。该工具基于神经网络技术，支持多种数据集训练，可应用于会议记录、课堂互动、多人访谈等场景的语音分析。

whisper-tiny.en - Whisper微调的英文语音识别模型

GithubWhisperHuggingface深度学习模型训练数据集语音识别开源项目模型

这是一个基于Whisper-tiny.en模型开发的轻量级语音识别工具，通过Azure数据集训练优化，主要用于英文语音转文本任务。模型采用线性学习率调度和Adam优化器，经过1000步训练后达到44.34%的词错误率。项目采用开源Apache 2.0许可，基于主流深度学习框架开发，便于开发者集成使用。

wav2vec2-large-lv60 - 深度学习实现高性能语音识别仅需少量标记数据

语音识别语音预训练模型深度学习GithubWav2Vec2音频处理Huggingface开源项目

Wav2Vec2是Facebook开发的语音预训练模型，通过无监督学习从原始音频中提取语音特征。该模型在大规模未标注数据上预训练后，能够以极少量的标注数据实现高性能语音识别。在LibriSpeech测试集上，全量标注数据训练可达1.8/3.3词错率；仅用1小时标注数据即超过先前100小时数据的最佳结果；10分钟标注数据也能实现4.8/8.2词错率。Wav2Vec2为低资源环境下的高质量语音识别提供了新的可能性。

faster-whisper-medium.en - 优化版Whisper语音识别模型集成CTranslate2框架

语音识别CTranslate2Github模型模型转换faster-whisperWhisperHuggingface开源项目

faster-whisper-medium.en是OpenAI Whisper-medium.en模型的CTranslate2移植版本，专注于英语音频转文本处理。通过CTranslate2框架优化，支持FP16计算类型，提供Python接口实现音频转录功能，输出包含时间戳的文本片段。项目采用MIT许可证开源，主要面向需要语音识别功能的开发场景。

whisper-large-v3-turbo - 精简版Whisper语音识别系统的突破性进展

自动语音识别语音识别Github开源项目模型多语言模型蒸馏HuggingfaceWhisper

Whisper large-v3-turbo通过模型蒸馏技术对原版Whisper进行优化，将解码层从32减少到4层，在仅造成轻微性能损失的情况下显著提升了处理速度。该模型继承了Whisper优秀的多语言处理能力，支持超过100种语言的语音识别和翻译任务，能够适应不同场景的音频输入。基于高效的架构设计，此模型在降低计算资源需求的同时保持了稳定的识别准确率。

faster-whisper-medium - CTranslate2优化的Whisper medium模型支持多语言音频处理

Github模型转换CTranslate2开源项目模型HuggingfaceWhisper机器翻译语音识别

这是OpenAI Whisper medium模型的CTranslate2优化版本，支持100多种语言的音频转录和识别。模型采用float16量化，通过faster-whisper库易于集成。它具有高效的推理速度和较小的内存占用，适合快速、准确处理多语言音频的应用场景。用户可根据需求调整计算类型，平衡性能和资源消耗。该模型为开发者提供了灵活、高效的多语言音频处理解决方案。

hf-seamless-m4t-medium - 多语言翻译与语音识别的统一模型

Hugging FaceGithub开源项目SeamlessM4T模型多语言翻译Huggingface文本到语音语音识别

SeamlessM4T是一款多语言模型，支持101种语言的语音输入、196种语言的文本处理和35种语言的语音输出。它能进行语音到语音、语音到文本、文本到语音及文本到文本的翻译。最新的SeamlessM4T v2在翻译质量和生成速度上均有改善，为需要高效语音处理和文本翻译的场景提供了解决方案。

whisper-large-v3-ru-podlodka - 基于Whisper Large V3的俄语优化语音识别模型

语音识别Github开源项目语音数据集俄语Whisper Large V3Huggingface神经网络模型

该模型是基于Whisper Large V3架构，专为俄语语音识别优化。在Podlodka.io数据集上，含标点和大写的字错误率(WER)为20.91%，不含标点的WER为10.987%。在Russian Librispeech数据集上，不含标点的WER达到9.795%。模型经过taiga_speech_v2、podlodka_speech和rulibrispeech等多个俄语数据集训练，适用于各种俄语语音识别场景。

faster-distil-whisper-large-v3 - 基于CTranslate2的Whisper语音识别优化模型

语音识别Github开源项目CTranslate2模型模型转换Huggingfacefaster-whisperWhisper

基于distil-whisper/distil-large-v3的CTranslate2转换模型，专注于提升语音识别效率。模型采用FP16格式存储权重，支持多语言转录功能，可灵活调整计算类型。项目提供完整的使用示例和转换文档，方便开发者快速集成和部署。

distil-small.en - 轻量快速的英语语音识别模型,保持高准确率

语音识别Github开源项目高性能TransformersDistil-Whisper模型Huggingface模型压缩

distil-small.en是Whisper模型的轻量化版本,参数量为166M。相比原始模型,速度提升6倍,体积减少49%,在外部数据集上的识别准确率仅降低1%。支持短长音频转录,可通过Transformers等多种框架使用。适合资源受限场景,采用编码器-解码器架构,通过精简解码器提升推理效率。

Arabic-Whisper-CodeSwitching-Edition - 针对阿拉伯语和英语混合语音的优化识别模型

代码转换Github开源项目阿拉伯语模型语言模型Huggingfacetransformers语音识别

本模型是经过精调的OpenAI Whisper Large v2版本，旨在提升阿拉伯语和英语混合语音的识别精度。基于阿拉伯-英语代码切换数据集训练，适用于处理多语言环境中的阿拉伯语和英语混合语音。虽然在该特定场景中表现优异，但在其它语言或单语言场景中性能可能有所下降。

PhoWhisper-large - 越南语自动语音识别模型PhoWhisper

Github机器学习开源项目越南语模型HuggingfaceWhisperPhoWhisper语音识别

PhoWhisper是一个基于多语言Whisper模型开发的越南语语音识别系统，提供五个不同版本。该模型通过844小时的多方言越南语数据集训练，适用于越南语音转文字、字幕生成等应用场景。在越南语ASR基准测试中表现优异，项目论文已被ICLR 2024收录。

DiVA-llama-3-v0-8b - 基于Llama的端到端双模态语音助手系统

语音识别Github开源项目语音助手模型人工智能模型Huggingface模型训练DiVA Llama 3

DiVA-llama-3-v0-8b是一个基于Llama-3.1-8B-Instruct的端到端语音助手系统，集成了语音和文本双模态输入功能。模型通过蒸馏损失训练方法开发，使用CommonVoice语料库训练，无需额外指令训练数据。该项目提供在线演示界面，并在Weights&Biases平台公开了完整训练日志。

wav2vec2-xls-r-1b - 大规模多语言语音预训练模型支持128种语言处理

语音处理预训练Github开源项目模型Huggingface多语言模型XLS-R语音识别

Wav2Vec2-XLS-R-1B是Facebook AI开发的大规模多语言语音预训练模型，拥有10亿参数。该模型在436K小时的公开语音数据上训练，涵盖128种语言。在CoVoST-2语音翻译基准测试中平均提升7.4 BLEU分，BABEL等语音识别任务错误率降低20%-33%。适用于语音识别、翻译和分类等任务，需要16kHz采样率的语音输入进行微调。

voxcelebs12_rawnet3 - 多语言语者识别解决方案，提升音频处理能力

多语言语音识别Github模型开源项目VoxCelebESPnetHuggingface演讲者识别

RawNet3模型基于ESPnet2框架和VoxCeleb数据集进行训练，专注于提升语者识别和音频处理的精度。该模型结合自监督式前端和现成工具，提供了创新的语者嵌入解决方案。用户可按照ESPnet的安装指南下载并应用此模型，配置选项包括Adam优化器和余弦退火调度器，充分保障模型训练过程的高效性与稳定性。适用于多语言语者识别应用场景，助力开发者增强音频处理的精度与便捷性。

wav2vec2-large-xlsr-53-esperanto - 基于XLSR-53微调的世界语语音识别模型

语音识别Github模型开源项目XLSREsperantoHuggingfaceWav2Vec2Common Voice

该项目基于wav2vec2-large-xlsr-53模型，使用世界语Common Voice数据集进行微调，开发了一个世界语语音识别模型。模型在测试集上实现12.31%的词错误率(WER)，支持16kHz采样率的语音输入。它可直接应用于语音识别任务，无需额外语言模型。项目详细介绍了模型的使用方法和评估过程。

wav2vec2-base-finetuned-sentiment-classification-MESD - 基于Wav2Vec2的西班牙语音情感分析模型准确率达93%

机器学习HuggingfaceGithub西班牙语开源项目模型wav2vec2情感分析语音识别

该模型是在MESD数据集上对wav2vec2-base进行微调的西班牙语音情感分析工具。经过约890条专业录音训练，模型在语音情感识别方面达到93.08%的分类准确率。适用于情感推荐系统、智能环境控制和安全监控等领域。模型在专业录音环境下表现优异，但在嘈杂背景和识别恐惧情绪时存在一定局限性。

reverb-asr - 基于大规模人工标注数据的开源语音识别模型

语音处理语音识别Github模型开源项目HuggingfaceReverb ASR人工智能自动语音转录

这是一个基于20万小时人工标注语音数据训练的开源语音识别系统。采用CTC/attention联合架构，同时支持CPU和GPU部署。系统的特色在于通过verbatimicity参数实现对转录详细程度的精确控制，可输出从简洁到完整逐字的多种转录风格。支持attention、CTC等多种解码方式，适合不同应用场景。

wavlm-base - 适用于多语音任务的自监督预训练模型

LibriSpeechWavLM音频分类自监督学习语音识别模型Github开源项目Huggingface

WavLM是基于自监督学习的语音预训练模型，旨在支持多种语音任务。模型在960小时Librispeech数据集上进行预训练，适用于语音识别和分类等任务，需在下游任务中微调。WavLM通过门控相对位置偏置和发音混合训练策略，强调说话者身份保留和内容建模，在SUPERB基准测试中表现优异。模型主要在英语环境中有良好表现，但目标是提供全语言栈的统一表示。

hubert-base-superb-ks - 基于HuBERT的语音命令词识别与关键词检测模型

语音识别音频分类HuggingfaceSUPERB关键词检测开源项目模型HuBERTGithub

该语音关键词检测系统基于HuBERT预训练模型开发，可识别Speech Commands数据集中的10类预设命令词、静音和未知类别。模型在测试集达到96.72%准确率，支持16kHz采样率音频输入，集成transformers pipeline接口，便于设备端快速部署和调用。

wav2vec2-xls-r-300m-timit-phoneme - 改进Wav2Vec2的音素识别性能的开源AI模型

DARPA TIMIT语音识别Github模型HuggingFace开源项目自动语音识别Huggingfacewav2vec2-xls-r-300m

该项目在DARPA TIMIT数据集上微调了Wav2Vec2模型，提升音素识别的精确度，展示从音频到文本的自动识别过程。使用HuggingFace的pipeline，实现了端到端处理。测试集上的字符错误率为7.996%。项目特色包括自定义音素预测方法和现代AI工具优化，有助于提高语音处理技术效率。

wav2vec2-xls-r-300m-mixed - wav2vec2模型在多语言环境下的创新语音识别解决方案

KerasGithub开源项目评估数据集模型语言模型Huggingface语音识别wav2vec2-xls-r-300m-mixed

wav2vec2-xls-r-300m-mixed项目在马来语、Singlish和普通话三种语言上进行了微调。依托单GPU（RTX 3090 Ti）完成训练，结合语言模型在CER和WER等指标上表现优异，尤其在普通话识别中取得了最低WER 0.075。这为多语言语音识别的研究与优化提供了一个有效路径。

whisper-large-v3-german - 德语语音识别优化模型

自动字幕OpenAI开源项目模型GithubHuggingface德语Whisper语音识别

基于Whisper Large v3，专为德语语音识别优化，在转录、命令识别、字幕生成等方面表现优秀。词错误率为3.002%，字符错误率为0.81%，适合高效使用。

filipino-wav2vec2-l-xls-r-300m-official - 基于XLS-R的菲律宾语语音识别模型

模型训练开源项目模型Github机器学习Huggingfacewav2vec2语音识别语音数据集

这是一个针对菲律宾语的语音识别模型，通过在filipino_voice数据集上微调wav2vec2-xls-r-300m实现。经过30轮训练后，模型在测试集上达到了0.2922的词错误率，可用于菲律宾语音频识别任务。

ultravox-v0_4 - 结合语音与文本处理的多模态模型

模型语音识别多模态开源项目HuggingfaceUltravoxGithubFixie.aiAI模型

Ultravox是一种多模态语言模型，结合了Llama3.1-8B和Whisper-medium技术，支持语音和文本的输入。通过特殊音频标记，该模型将音频转换为文本嵌入以生成输出。未来版本计划支持直接生成语音。Ultravox可以应用于语音代理、翻译和音频分析。模型使用多语种语音识别数据集进行训练，并在8x H100 GPU上运用BF16精度。最新版本在A100-40GB GPU上实现首次生成标记时间约为150毫秒。

english-filipino-wav2vec2-l-xls-r-test-09 - XLSR-53架构英语和菲律宾语双语语音识别模型

Huggingfacewav2vec2人工智能语音识别模型Github开源项目语音模型机器学习

这是一个基于wav2vec2-large-xlsr-53-english模型在filipino_voice数据集上微调的英语-菲律宾语语音识别模型。通过20轮训练，模型在评估集上达到1.0054的损失值和57.50%的词错误率。采用Adam优化器、线性学习率调度和混合精度训练等技术，模型性能逐步提升，最终实现了较好的双语语音识别效果。

wav2vec2-indonesian-javanese-sundanese - 印尼、爪哇和巽他语的多语言语音识别模型

Github开源项目模型多语言Huggingface印尼语自动语音识别语音识别Wav2Vec2

利用优化的Wav2Vec2模型，专注于印尼、爪哇和巽他语的多语言语音识别，数据来自Common Voice和TTS数据集，拥有较低字错误率并提供在线演示，工具无需语言模型，适合16kHz语音输入，帮助研究人员和开发者探索多语言识别技术。

whisper-small-fa - Whisper-small-fa模型在Common Voice数据集上的语音识别性能

训练超参数TransformersHuggingfaceGithub开源项目模型模型评估数据集语音识别

Whisper-small-fa是一个基于openai/whisper-small模型在common_voice_17_0数据集上微调的版本，旨在实现高效的自动语音识别。测试集结果显示，该模型的词错误率(WER)为35.4973，体现了其在语音识别中的良好表现。模型训练中应用了Adam优化器、线性学习率调度器及混合精度技术，从而提高了训练的效率和精确度。

wav2vec2-base-superb-er - 基于Wav2Vec2的语音情感识别模型实现高精度声学特征提取

情感识别IEMOCAPHuggingfaceGithub开源项目模型SUPERBWav2Vec2语音识别

wav2vec2-base-superb-er是一个针对SUPERB情感识别任务优化的语音情感识别模型。该模型可从16kHz采样的语音中提取声学特征，识别说话者的情感状态。经IEMOCAP数据集训练后，模型能识别4种主要情感类别，测试集识别准确率为62.58%。模型提供pipeline接口和直接调用方式，便于快速部署语音情感分析应用。

wav2vec2-large-xlsr-53-th-cv8-newmm - 基于wav2vec2的泰语语音识别模型整合CommonVoice V8数据集实现性能突破

Wav2Vec2语音转文本机器学习模型泰语语音识别模型Github开源项目Huggingface

这是一个针对泰语的开源语音识别模型，通过微调wav2vec2-large-xlsr-53并整合CommonVoice V8数据集实现。模型采用pythainlp进行预分词，结合语言模型显著提升性能。在CommonVoice V8测试集上，模型实现12.58%的词错率和3.28%的字符错率，较基准模型大幅提升。该项目代表了当前泰语语音识别领域的先进水平。

wav2vec2-xls-r-300m-phoneme - 微调后的Facebook语音处理模型

wav2vec2-xls-r-300m语音识别Github开源项目梯度累积Huggingface模型训练训练超参数模型

该模型是在Facebook的wav2vec2-xls-r-300m基础上进行微调，专注于语音处理任务，损失函数为0.3327，字符错误率为0.1332。使用了先进的参数优化和混合精度训练技术，适用于多种语音识别和处理场景。

相关文章

Article Cover

Deepgram Aura:最强的文本转语音模型，人工智能客服时代真的来了

2024年08月03日

Article Cover

STT: 离线语音识别转文字工具

Article Cover

PaddleSpeech:百度飞桨开源的功能强大的语音处理工具包

Article Cover

Leon: 开源个人助理的未来

Article Cover

DeepSpeech:开源嵌入式语音识别引擎

Article Cover

Vosk-API: 开源离线语音识别工具包

Article Cover

wav2letter++: Facebook AI Research的自动语音识别工具包

Article Cover

FunClip: 开源、精准、易用的视频语音识别与剪辑工具

Article Cover

开源AI客服，100人的客服团队未来只需1人

2024年08月02日

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号