#语音识别

DiVA-llama-3-v0-8b - 基于Llama的端到端双模态语音助手系统
语音识别Github开源项目语音助手模型人工智能模型Huggingface模型训练DiVA Llama 3
DiVA-llama-3-v0-8b是一个基于Llama-3.1-8B-Instruct的端到端语音助手系统,集成了语音和文本双模态输入功能。模型通过蒸馏损失训练方法开发,使用CommonVoice语料库训练,无需额外指令训练数据。该项目提供在线演示界面,并在Weights&Biases平台公开了完整训练日志。
wav2vec2-xls-r-1b - 大规模多语言语音预训练模型支持128种语言处理
语音处理预训练Github开源项目模型Huggingface多语言模型XLS-R语音识别
Wav2Vec2-XLS-R-1B是Facebook AI开发的大规模多语言语音预训练模型,拥有10亿参数。该模型在436K小时的公开语音数据上训练,涵盖128种语言。在CoVoST-2语音翻译基准测试中平均提升7.4 BLEU分,BABEL等语音识别任务错误率降低20%-33%。适用于语音识别、翻译和分类等任务,需要16kHz采样率的语音输入进行微调。
voxcelebs12_rawnet3 - 多语言语者识别解决方案,提升音频处理能力
多语言语音识别Github模型开源项目VoxCelebESPnetHuggingface演讲者识别
RawNet3模型基于ESPnet2框架和VoxCeleb数据集进行训练,专注于提升语者识别和音频处理的精度。该模型结合自监督式前端和现成工具,提供了创新的语者嵌入解决方案。用户可按照ESPnet的安装指南下载并应用此模型,配置选项包括Adam优化器和余弦退火调度器,充分保障模型训练过程的高效性与稳定性。适用于多语言语者识别应用场景,助力开发者增强音频处理的精度与便捷性。
wav2vec2-large-xlsr-53-esperanto - 基于XLSR-53微调的世界语语音识别模型
语音识别Github模型开源项目XLSREsperantoHuggingfaceWav2Vec2Common Voice
该项目基于wav2vec2-large-xlsr-53模型,使用世界语Common Voice数据集进行微调,开发了一个世界语语音识别模型。模型在测试集上实现12.31%的词错误率(WER),支持16kHz采样率的语音输入。它可直接应用于语音识别任务,无需额外语言模型。项目详细介绍了模型的使用方法和评估过程。
wav2vec2-base-finetuned-sentiment-classification-MESD - 基于Wav2Vec2的西班牙语音情感分析模型 准确率达93%
机器学习HuggingfaceGithub西班牙语开源项目模型wav2vec2情感分析语音识别
该模型是在MESD数据集上对wav2vec2-base进行微调的西班牙语音情感分析工具。经过约890条专业录音训练,模型在语音情感识别方面达到93.08%的分类准确率。适用于情感推荐系统、智能环境控制和安全监控等领域。模型在专业录音环境下表现优异,但在嘈杂背景和识别恐惧情绪时存在一定局限性。
reverb-asr - 基于大规模人工标注数据的开源语音识别模型
语音处理语音识别Github模型开源项目HuggingfaceReverb ASR人工智能自动语音转录
这是一个基于20万小时人工标注语音数据训练的开源语音识别系统。采用CTC/attention联合架构,同时支持CPU和GPU部署。系统的特色在于通过verbatimicity参数实现对转录详细程度的精确控制,可输出从简洁到完整逐字的多种转录风格。支持attention、CTC等多种解码方式,适合不同应用场景。
wavlm-base - 适用于多语音任务的自监督预训练模型
LibriSpeechWavLM音频分类自监督学习语音识别模型Github开源项目Huggingface
WavLM是基于自监督学习的语音预训练模型,旨在支持多种语音任务。模型在960小时Librispeech数据集上进行预训练,适用于语音识别和分类等任务,需在下游任务中微调。WavLM通过门控相对位置偏置和发音混合训练策略,强调说话者身份保留和内容建模,在SUPERB基准测试中表现优异。模型主要在英语环境中有良好表现,但目标是提供全语言栈的统一表示。
hubert-base-superb-ks - 基于HuBERT的语音命令词识别与关键词检测模型
语音识别音频分类HuggingfaceSUPERB关键词检测开源项目模型HuBERTGithub
该语音关键词检测系统基于HuBERT预训练模型开发,可识别Speech Commands数据集中的10类预设命令词、静音和未知类别。模型在测试集达到96.72%准确率,支持16kHz采样率音频输入,集成transformers pipeline接口,便于设备端快速部署和调用。
wav2vec2-xls-r-300m-timit-phoneme - 改进Wav2Vec2的音素识别性能的开源AI模型
DARPA TIMIT语音识别Github模型HuggingFace开源项目自动语音识别Huggingfacewav2vec2-xls-r-300m
该项目在DARPA TIMIT数据集上微调了Wav2Vec2模型,提升音素识别的精确度,展示从音频到文本的自动识别过程。使用HuggingFace的pipeline,实现了端到端处理。测试集上的字符错误率为7.996%。项目特色包括自定义音素预测方法和现代AI工具优化,有助于提高语音处理技术效率。
wav2vec2-xls-r-300m-mixed - wav2vec2模型在多语言环境下的创新语音识别解决方案
KerasGithub开源项目评估数据集模型语言模型Huggingface语音识别wav2vec2-xls-r-300m-mixed
wav2vec2-xls-r-300m-mixed项目在马来语、Singlish和普通话三种语言上进行了微调。依托单GPU(RTX 3090 Ti)完成训练,结合语言模型在CER和WER等指标上表现优异,尤其在普通话识别中取得了最低WER 0.075。这为多语言语音识别的研究与优化提供了一个有效路径。
whisper-large-v3-german - 德语语音识别优化模型
自动字幕OpenAI开源项目模型GithubHuggingface德语Whisper语音识别
基于Whisper Large v3,专为德语语音识别优化,在转录、命令识别、字幕生成等方面表现优秀。词错误率为3.002%,字符错误率为0.81%,适合高效使用。
filipino-wav2vec2-l-xls-r-300m-official - 基于XLS-R的菲律宾语语音识别模型
模型训练开源项目模型Github机器学习Huggingfacewav2vec2语音识别语音数据集
这是一个针对菲律宾语的语音识别模型,通过在filipino_voice数据集上微调wav2vec2-xls-r-300m实现。经过30轮训练后,模型在测试集上达到了0.2922的词错误率,可用于菲律宾语音频识别任务。
ultravox-v0_4 - 结合语音与文本处理的多模态模型
模型语音识别多模态开源项目HuggingfaceUltravoxGithubFixie.aiAI模型
Ultravox是一种多模态语言模型,结合了Llama3.1-8B和Whisper-medium技术,支持语音和文本的输入。通过特殊音频标记,该模型将音频转换为文本嵌入以生成输出。未来版本计划支持直接生成语音。Ultravox可以应用于语音代理、翻译和音频分析。模型使用多语种语音识别数据集进行训练,并在8x H100 GPU上运用BF16精度。最新版本在A100-40GB GPU上实现首次生成标记时间约为150毫秒。
english-filipino-wav2vec2-l-xls-r-test-09 - XLSR-53架构英语和菲律宾语双语语音识别模型
Huggingfacewav2vec2人工智能语音识别模型Github开源项目语音模型机器学习
这是一个基于wav2vec2-large-xlsr-53-english模型在filipino_voice数据集上微调的英语-菲律宾语语音识别模型。通过20轮训练,模型在评估集上达到1.0054的损失值和57.50%的词错误率。采用Adam优化器、线性学习率调度和混合精度训练等技术,模型性能逐步提升,最终实现了较好的双语语音识别效果。
wav2vec2-indonesian-javanese-sundanese - 印尼、爪哇和巽他语的多语言语音识别模型
Github开源项目模型多语言Huggingface印尼语自动语音识别语音识别Wav2Vec2
利用优化的Wav2Vec2模型,专注于印尼、爪哇和巽他语的多语言语音识别,数据来自Common Voice和TTS数据集,拥有较低字错误率并提供在线演示,工具无需语言模型,适合16kHz语音输入,帮助研究人员和开发者探索多语言识别技术。
whisper-small-fa - Whisper-small-fa模型在Common Voice数据集上的语音识别性能
训练超参数TransformersHuggingfaceGithub开源项目模型模型评估数据集语音识别
Whisper-small-fa是一个基于openai/whisper-small模型在common_voice_17_0数据集上微调的版本,旨在实现高效的自动语音识别。测试集结果显示,该模型的词错误率(WER)为35.4973,体现了其在语音识别中的良好表现。模型训练中应用了Adam优化器、线性学习率调度器及混合精度技术,从而提高了训练的效率和精确度。
wav2vec2-base-superb-er - 基于Wav2Vec2的语音情感识别模型实现高精度声学特征提取
情感识别IEMOCAPHuggingfaceGithub开源项目模型SUPERBWav2Vec2语音识别
wav2vec2-base-superb-er是一个针对SUPERB情感识别任务优化的语音情感识别模型。该模型可从16kHz采样的语音中提取声学特征,识别说话者的情感状态。经IEMOCAP数据集训练后,模型能识别4种主要情感类别,测试集识别准确率为62.58%。模型提供pipeline接口和直接调用方式,便于快速部署语音情感分析应用。
wav2vec2-large-xlsr-53-th-cv8-newmm - 基于wav2vec2的泰语语音识别模型整合CommonVoice V8数据集实现性能突破
Wav2Vec2语音转文本机器学习模型泰语语音识别模型Github开源项目Huggingface
这是一个针对泰语的开源语音识别模型,通过微调wav2vec2-large-xlsr-53并整合CommonVoice V8数据集实现。模型采用pythainlp进行预分词,结合语言模型显著提升性能。在CommonVoice V8测试集上,模型实现12.58%的词错率和3.28%的字符错率,较基准模型大幅提升。该项目代表了当前泰语语音识别领域的先进水平。
wav2vec2-xls-r-300m-phoneme - 微调后的Facebook语音处理模型
wav2vec2-xls-r-300m语音识别Github开源项目梯度累积Huggingface模型训练训练超参数模型
该模型是在Facebook的wav2vec2-xls-r-300m基础上进行微调,专注于语音处理任务,损失函数为0.3327,字符错误率为0.1332。使用了先进的参数优化和混合精度训练技术,适用于多种语音识别和处理场景。
wav2vec2-xlsr-1b-finnish-lm-v2 - 芬兰语语音识别模型精调,提升语音转文字效果
芬兰语语音识别Github模型开源项目语言模型wav2vec2-xlsr-1bHuggingface训练数据
wav2vec2-xlsr-1b-finnish-lm-v2模型基于Facebook AI的多语言预训练模型,为芬兰语自动语音识别进行了优化,使用275.6小时的录音数据进行精调。模型在Common Voice 7.0和FLEURS ASR数据集的测试中取得了4.09%的词错误率(WER)和12.11%的WER。模型配有芬兰语KenLM语言模型用于解码,适合短语音片段处理。其在正式语境中的表现较佳,但普及日常口语和方言的能力有限。可通过训练自定义KenLM以适应特定领域语言。
wav2vec2-lv-60-espeak-cv-ft - 利用微调的wav2vec2模型提升多语言语音和语素识别能力
语音识别Huggingface开源项目模型自主学习自动语音识别GithubWav2Vec2跨语言
wav2vec2-large-lv60模型经过多语言Common Voice数据集微调,实现跨语言语音与语素识别。模型在16kHz采样率的语音输入下输出语素标签,需使用语素到单词的映射字典进行转换。该方法在未见语言的转录中表现优异,超过以往单一语言模型的效果。