#自动语音识别
athena - 开源端到端语音处理引擎,推动工业应用与学术研究
Athena语音处理自动语音识别语音合成端到端模型Github开源项目
一款基于Tensorflow构建的开源端到端语音处理平台,旨在提升语音处理技术的研究与实际应用。支持自动语音识别、语音合成、关键词检测等多项功能,配备多GPU训练和无Kaldi的Python特征提取,实现了多种模型结构如FastSpeech和Conformer,适用于各类研究和应用需求。该平台在最新更新中加入了FastSpeech2和Conformer-CTC模型以优化处理速度和准确性。
awesome-speech-recognition-speech-synthesis-papers - 语音识别与合成技术研究关键论文集锦
语音识别语音合成深度学习神经网络自动语音识别Github开源项目
本项目汇聚了语音识别与语音合成领域的重要研究论文,涵盖多个子领域,包括自动语音识别(ASR)、说话人验证、声音转换和语音合成(TTS)等。提供广泛的研究成果和方法论参考,这些资源可以帮助研究人员和开发人员探索从文本到音频的转换技术和相关音乐建模应用。该资源适用于学术研究和实际开发中的技术革新和行业推动。
whisper.rn - React Native环境中的Whisper自动语音识别模型的高性能实现
whisper.rn自动语音识别React Native音频转录whisper.cppGithub开源项目
whisper.rn是React Native环境中OpenAI的Whisper自动语音识别模型的高性能实现,支持iOS和Android平台,具备实时转录功能,并集成Core ML和NDK优化。项目提供详细的安装与使用指南及实用技巧,适合在移动应用中集成语音识别功能。
alan-sdk-cordova - 快速创建AI代理,实现语音指令与应用内对话
Alan AIApache Cordova语音命令自动语音识别自然语言理解Github开源项目
该平台提供必要工具,通过语音指令实现人性化对话和操作。Alan AI Studio是功能强大的Web IDE,用于编写、测试和调试对话场景。Alan AI SDK可快速嵌入AI代理,后台通过先进的ASR和NLU进行数据处理。无需大幅更改UI,服务器环境免维护,可实时更新对话内容,并提供对话流测试和分析工具。
TensorFlowASR - TensorFlow 2中的智能自动语音识别解决方案
TensorFlowASR自动语音识别深度学习TFLite模型训练Github开源项目
TensorFlowASR提供了多种自动语音识别模型,如DeepSpeech2、Jasper和RNN Transducer,支持转换为TFLite格式以减少内存和计算需求。此项目适用于Python 3.8及以上版本和TensorFlow 2.12.0及以上版本,支持多平台,包括Apple Silicon,并提供详细的安装和开发指南。
alan-sdk-android - 实现应用内语音交互的智能对话 AI 代理
Alan AI对话式AI安卓SDK自动语音识别自然语言理解Github开源项目
Alan AI 提供丰富工具集,快速将 AI 代理嵌入 Android 应用,实现人性化对话和语音命令操作。通过 Alan AI Studio 创建对话脚本,无需大幅更改 UI,后台自动处理语音识别和自然语言处理,支持对话流测试和数据分析,实现即时更新和无服务器环境。
parakeet-tdt_ctc-1.1b - 高性能自动语音识别模型解决方案
词错误率自动语音识别数据集Github开源项目快速同构体NeMoHuggingface模型
parakeet-tdt_ctc-1.1b提供了一个功能强大的语音识别模型,支持将语音转录为包含标点和大写字母的文本。由NVIDIA NeMo和Suno.ai团队联合开发,拥有1.1B的参数规模,能够高效地处理大规模的音频数据。该模型利用局部注意力和全局令牌技术实现单次处理11小时音频。其在多个公开数据集上的出色表现,表明其在语音转录应用中有广泛的适用性和较低的词错误率(WER)。
parakeet-rnnt-0.6b - 先进的英语语音识别模型 准确率达98.37%
模型Transducer开源项目Huggingface语音转文本FastConformerGithub自动语音识别NeMo
parakeet-rnnt-0.6b是NVIDIA NeMo和Suno.ai联合开发的英语语音识别模型。采用FastConformer Transducer架构,拥有约6亿参数。在LibriSpeech测试集上错误率仅1.63%,多个数据集上表现优异。支持16kHz单声道音频输入,可通过NeMo工具包使用,适用于多种语音转文本场景。
parakeet-rnnt-1.1b - 高性能英语语音识别模型实现优异音频转文本效果
HuggingfaceFastConformer模型NeMoGithub自动语音识别开源项目英语语音模型Transducer
parakeet-rnnt-1.1b是NVIDIA NeMo和Suno.ai联合开发的英语语音识别模型。基于FastConformer Transducer架构,该模型拥有11亿参数,在64000小时英语语音数据上训练。它能准确将语音转录为小写英文文本,并在多个标准数据集上表现出色。研究人员可通过NeMo工具包使用该模型进行推理或微调,适用于多种语音识别场景。
wav2vec2-large-xlsr-53-arabic - XLSR-53模型在阿拉伯语语音识别中的应用与性能
模型阿拉伯语Common VoiceGithubXLSR-53自动语音识别开源项目HuggingfaceWav2Vec2
该项目基于Facebook的wav2vec2-large-xlsr-53模型,通过阿拉伯语语音数据微调,开发了一个高性能的阿拉伯语语音识别模型。在Common Voice测试集上,模型实现了39.59%的词错误率和18.18%的字符错误率,表现优于同类模型。模型支持16kHz采样率的语音输入,可直接用于阿拉伯语语音转录,无需额外语言模型。项目详细介绍了使用方法和评估结果,为阿拉伯语语音识别研究提供了有价值的参考。
faster-whisper-medium - 多语言语音识别与转录的高效开源解决方案
模型多语言WhisperGithubCTranslate2模型转换自动语音识别Huggingface开源项目
该项目是基于OpenAI Whisper medium模型转换而来的CTranslate2格式模型,为faster-whisper项目提供支持。支持90多种语言的语音识别和转录功能,性能优异且准确度高。用户可通过faster-whisper轻松实现音频文件的高效转录,获取精确的时间戳和文本输出。模型采用float16量化,计算类型可根据需求灵活调整,适用于多种语音识别应用场景。
nb-wav2vec2-300m-nynorsk - 挪威语新挪威语Wav2Vec2语音识别模型
语言模型模型NbAiLab/NPSC挪威语Github自动语音识别开源项目HuggingfaceWav2Vec2
nb-wav2vec2-300m-nynorsk是一个针对挪威语新挪威语的Wav2Vec2语音识别模型。该模型基于VoxRex特征提取器,使用NbAiLab/NPSC数据集进行微调,在NPSC测试集上达到了0.1222的词错误率(WER)和0.0419的字符错误率(CER)。作为Robust Speech Event项目的成果之一,模型及其训练代码已开源,为挪威自然语言处理社区提供了进一步改进自动语音识别技术的基础。
faster-whisper-base - 多语言自动语音识别与转录效率提升的开源工具
CTranslate2自动语音识别faster-whisper模型GithubWhisper开源项目模型转换Huggingface
faster-whisper-base是将OpenAI的Whisper-base模型转换为CTranslate2格式的项目,支持多语言自动语音识别。模型保留FP16精度,用户可以通过CTranslate2的compute_type选项进行模型类型调整,适合需要高效语音转录的应用。
wav2vec2-base-vietnamese-250h - wav2vec2提升越南语音识别精度
开源项目模型Github越南语HuggingfaceCTCwav2vec2语音识别自动语音识别
项目应用wav2vec2技术实现越南语的自动语音识别。模型在13000小时的未标注YouTube音频上预训练,并在250小时的VLSP ASR数据集上进行微调,支持16kHz采样音频。结合4-grams语言模型,显著提高了语音识别的准确性,降低了VIVOS数据集的词错误率,从10.77降至6.15。项目使用CC BY-NC 4.0授权,适用于非商业用途。
faster-distil-whisper-large-v2 - 通过CTranslate2实现的高效音频转录转换方案
CTranslate2量化自动语音识别模型GithubWhisper开源项目模型转换Huggingface
此项目将distil-whisper/distil-large-v2模型转换为CTranslate2格式,适用于CTranslate2项目如faster-whisper,并支持FP16计算,增强了自动语音识别的性能和效率。
stt_en_conformer_transducer_xlarge - Conformer-Transducer模型的超大规模语音识别能力
模型训练NVIDIA ConformerNVIDIA Riva自动语音识别模型Github开源项目语音转录Huggingface
Conformer-Transducer超大模型拥有600M参数,专为英语自动语音识别设计,以较低的字错误率(WER)脱颖而出。通过NVIDIA NeMo工具包训练,涵盖LibriSpeech、Mozilla Common Voice等多个数据集。模型支持Python调用,具备细化调优和批量处理功能,适合多种语音识别应用。虽然暂未兼容NVIDIA Riva,但其在英语语音处理方面表现卓越。
distil-large-v2 - 高效精简的Whisper语音识别模型
模型Github模型压缩语音识别Distil-Whisper自动语音识别Huggingface开源项目Transformers
distil-large-v2是Whisper语音识别模型的蒸馏版本,推理速度提高6倍,模型体积减少49%,性能接近原始模型。采用编码器-解码器架构,通过精简解码器层数实现加速。支持英语短音频和长音频转录,可作为Whisper辅助模型进行推测解码。基于多个开源数据集训练,适用广泛语音识别场景。
faster-whisper-small.en - 基于CTranslate2的Whisper小型英语音频转写模型
faster-whisperWhisperHuggingface模型CTranslate2Github自动语音识别开源项目模型转换
本项目是openai/whisper-small.en模型的CTranslate2格式转换版本,专门用于英语音频转写。它可在CTranslate2或相关项目(如faster-whisper)中使用,通过简单的Python代码实现音频到文本的转换。模型权重采用FP16格式,支持加载时调整计算类型。这一转换模型旨在提供高效、准确的音频转写功能,适用于各种需要快速处理英语音频内容的应用场景。
wav2vec2-large-es-voxpopuli - Wav2Vec2大型西班牙语语音识别模型基于VoxPopuli预训练
模型语音语料库Github预训练模型VoxPopuli自动语音识别开源项目HuggingfaceWav2Vec2
Wav2Vec2-Large-VoxPopuli是一个基于Facebook Wav2Vec2技术的西班牙语语音识别模型。该模型利用VoxPopuli语料库中的无标签西班牙语音频数据进行预训练,能够有效学习语音结构。模型适用于自动语音识别任务,可通过微调提升特定领域性能。采用CC-BY-NC-4.0许可证,为语音处理研究和开发提供了有力工具。
seamless-m4t-v2-large - 跨语言跨模态机器翻译新里程碑
Huggingface模型多语言翻译SeamlessM4TGithub自动语音识别开源项目文本翻译语音翻译
SeamlessM4T v2是一款先进的多语言多模态机器翻译模型,支持近100种语言。它可实现语音与文本之间的多向转换,覆盖101种语音输入、96种文本处理和35种语音输出语言。新版本采用UnitY2架构,显著提升了翻译质量和语音生成效率,为跨语言交流提供了更优秀的技术支持。
wav2vec2-xlsr-persian-speech-emotion-recognition - Wav2Vec 2.0波斯语语音情感识别模型
模型Wav2Vec 2.0GithubShEMO波斯语自动语音识别Huggingface开源项目语音情感识别
该项目开发的Wav2Vec 2.0波斯语语音情感识别模型能够识别六种基本情绪。模型在ShEMO数据集上训练,总体准确率达90%。项目提供了完整的使用说明,包括环境配置、模型加载和预测示例代码。同时还展示了模型在各情绪类别上的性能指标,如精确率、召回率和F1分数等。
nb-whisper-small - 先进的挪威语自动语音识别开源项目
Huggingface模型语音识别Github自动语音识别开源项目挪威语模型训练NB-Whisper
NB-Whisper Small是挪威国家图书馆开发的挪威语自动语音识别模型。基于OpenAI的Whisper架构,该模型使用66,000小时的语音数据训练,支持挪威语和英语的转录与翻译。通过Hugging Face Transformers库可轻松调用,提供高精度转录、时间戳和说话人分离等功能,适用于多种语音识别场景。
whisper-large-v3-french-distil-dec8 - 优化法语语音识别的内存使用和推理效率
Whisper-Large-V3-French-Distil-Dec8法语语音转录Huggingface模型自动语音识别推理速度Github开源项目
Whisper-Large-V3-French-Distil通过减少解码层数和优化推理时间,实现法语语音识别的高效性。该模型支持多种库,如transformers和openai-whisper,并能与原版Whisper-Large-V3-French模型结合使用,增强推理速度和结果一致性。评估数据表明其在多语料库中将单词错误率(WER)降至较低水平。
wav2vec2-xls-r-1b-ca-lm - 基于先进技术的加泰罗尼亚语语音识别模型
wav2vec2-xls-r-1b-ca-lmHuggingfaceGithub开源项目模型训练过程模型评估数据集自动语音识别
此模型是在facebook/wav2vec2-xls-r-300m的基础上微调的,专注于加泰罗尼亚语自动语音识别。通过使用Mozilla Common Voice 8.0及其他数据集进行优化训练,该模型在加泰罗尼亚口音识别上展现出高效性能。适用于需要精准语音识别的场景,尽管资源稀缺的方言可能效果较差。模型精度得益于优化后的学习率和批量大小,是语音识别技术发展的重要里程碑。
hubert-xlarge-ls960-ft - 采用大规模LibriSpeech数据集微调的HuBERT模型,展示前沿语音识别性能
Hubert开源项目聚类语音表示学习模型自监督学习Huggingface自动语音识别Github
HuBERT模型通过LibriSpeech数据集上的960小时微调,提供准确的自动语音识别功能。解决大声单元处理、无词汇表和声单元长度可变等挑战,并在多项基准测试中与wav2vec 2.0性能相当或更优。通过自监督学习和离线聚类,得益于1B参数模型,显著降低了错误率,成为语音识别的关键突破方法。
whisper-hindi-medium - 客户端优化印地语ASR模型
语料库whisper-finetuneHuggingfaceGithub开源项目训练数据Whisper Hindi Medium模型自动语音识别
该项目优化了Whisper模型,以提高印地语的语音识别准确性。经过多种公开ASR数据集的训练与评估,实现了最低WER为6.82的性能优化。相关代码库在GitHub上提供,支持模型重用和快速推理。
s2t-small-librispeech-asr - 小型LibriSpeech语音识别模型的高效自动化
语音转换文本Speech2TextHuggingfaceLibriSpeechGithub开源项目模型s2t-small-librispeech-asr自动语音识别
s2t-small-librispeech-asr是一种小型端到端语音识别模型,使用LibriSpeech ASR语料库进行训练。该模型采用自回归的方式生成转录文本,并结合Pytorch及其工具如torchaudio和sentencepiece以提高准确性。在LibriSpeech“clean”和“other”测试集上的WER分别为4.3和9.0,可满足高性能语音识别应用的需求。
whisper-tiny.en - 支持时间戳转录的轻量级英语语音识别模型
时间戳开源项目模型Transformers.jsONNX自动语音识别WhisperGithubHuggingface
基于transformers.js开发的轻量级英语语音识别模型,集成ONNX格式权重实现Web端部署。模型支持基础文本转录、时间戳转录及单词级时间戳标记等功能,通过JavaScript可快速实现音频转文本识别。
whisper-large-v3-turbo - 精简版Whisper语音识别系统的突破性进展
自动语音识别语音识别Github开源项目模型多语言模型蒸馏HuggingfaceWhisper
Whisper large-v3-turbo通过模型蒸馏技术对原版Whisper进行优化,将解码层从32减少到4层,在仅造成轻微性能损失的情况下显著提升了处理速度。该模型继承了Whisper优秀的多语言处理能力,支持超过100种语言的语音识别和翻译任务,能够适应不同场景的音频输入。基于高效的架构设计,此模型在降低计算资源需求的同时保持了稳定的识别准确率。
data2vec-audio-base-960h - 利用自监督学习提升语音识别效率的开源框架
自动语音识别语言模型Github开源项目Transformer自监督学习HuggingfaceData2Vec模型
Data2Vec是一种开源模型,基于Librispeech数据集进行960小时的16kHz语音音频的预训练和微调,在语音识别领域表现优异。利用自监督学习与自蒸馏手段,Data2Vec准确提取上下文信息,优化了自动语音识别的表现。在LibriSpeech的测试中,取得了“clean”任务2.77和“other”任务7.08的词错误率(WER),体现了其在业内的竞争力。
wav2vec2-large-xlsr-53-spanish - Wav2Vec2模型在西班牙语语音识别中的表现
Huggingface西班牙语音频开源项目模型自动语音识别GithubWav2Vec2Common Voice
项目在Common Voice ES测试集上测试了Wav2Vec2模型的性能,语音识别错误率为17.6%。此项目使用Facebook发布的模型,与Torchaudio结合进行数据预处理,实现了语音到文本的转化,展示了语音处理与自动语音识别领域的最新进展。
wav2vec2-xls-r-300m-timit-phoneme - 改进Wav2Vec2的音素识别性能的开源AI模型
DARPA TIMIT语音识别Github模型HuggingFace开源项目自动语音识别Huggingfacewav2vec2-xls-r-300m
该项目在DARPA TIMIT数据集上微调了Wav2Vec2模型,提升音素识别的精确度,展示从音频到文本的自动识别过程。使用HuggingFace的pipeline,实现了端到端处理。测试集上的字符错误率为7.996%。项目特色包括自定义音素预测方法和现代AI工具优化,有助于提高语音处理技术效率。
faster-whisper-large-v1 - CTranslate2模型转换助力高效语音识别
GithubWhisper large-v1模型开源开源项目自动语音识别模型转换HuggingfaceCTranslate2
项目展示如何将openai/whisper-large模型转换为高效的CTranslate2格式,支持多语种语音转录,适合高精度及快速处理场景。
parakeet-ctc-1.1b - 高效自动语音识别模型,快速完成语音转录
Github模型FastConformer开源项目词错误率NeMopytorch自动语音识别Huggingface
parakeet-ctc-1.1b是由NVIDIA NeMo和Suno.ai团队开发的ASR模型,采用FastConformer架构,参数量约11亿。该模型适用于16kHz单声道音频,可以转录语音为小写英文。经过多数据集测试,字错率表现优异,如LibriSpeech clean数据集WER为1.83。利用NVIDIA NeMo工具包,该模型可用于推理或微调,适合多领域音频转录。
uzbek-speaker-verification-v4 - 乌兹别克语说话人验证模型NeMo实现的优化
模型性能NeMoGithub开源项目模型Huggingface自动语音识别数据集Uzbek-speaker-verification-v4
提供预训练的乌兹别克语说话人验证模型,适合语音识别任务,支持NeMo工具包中的推理和微调。模型经过大量语音数据训练,在标准语音识别中表现良好,适用于学术研究和商业应用。
wav2vec2-btb-cv-ft-btb-cy - 基于微调的语音识别模型,提升准确度与适用性
Huggingface模型优化wav2vec2训练参数开源项目模型自动语音识别Github损失率
此AI模型基于DewiBrynJones的wav2vec2-xlsr-53-ft-btb-cv-cy微调而成,专注提升自动语音识别精确度。评估词错误率为0.3402,表现出明显改善。使用Adam优化器,学习率为0.0003,训练批次为4。适用于高精度需求的语音识别场景,但因缺乏训练数据和用途的细节说明,适用性需谨慎评估。
相关文章
语音合成技术的最新进展与应用
2024年08月30日
Athena: 开源序列到序列语音处理引擎的革新之作
2024年08月30日
Whisper.rn: 在React Native中集成OpenAI的Whisper语音识别模型
2024年08月31日
TensorFlowASR: 基于TensorFlow 2的先进自动语音识别框架
2024年09月04日
Alan SDK for Android: 构建智能语音交互应用的强大工具
2024年09月04日
Alan SDK Cordova: 为 Apache Cordova 应用添加语音 AI 助手
2024年09月04日
awesome-speech-recognition-speech-synthesis-papers学习资料汇总 - 语音识别与合成领域顶级论文集锦
2024年09月10日
Athena入门学习资料 - 开源端到端语音处理引擎
2024年09月10日