s2t-small-librispeech-asr

小型LibriSpeech语音识别模型的高效自动化

语音转换文本 Speech2Text Huggingface LibriSpeech Github 开源项目模型 s2t-small-librispeech-asr 自动语音识别

s2t-small-librispeech-asr是一种小型端到端语音识别模型，使用LibriSpeech ASR语料库进行训练。该模型采用自回归的方式生成转录文本，并结合Pytorch及其工具如torchaudio和sentencepiece以提高准确性。在LibriSpeech“clean”和“other”测试集上的WER分别为4.3和9.0，可满足高性能语音识别应用的需求。

Github

Huggingface

介绍相关项目

WhisperS2T - 高效多后端语音识别管道实现快速精准转录

GithubWhisperS2T优化管道多后端支持开源项目语音转文本高速推理

WhisperS2T是一个为Whisper模型优化的开源语音识别管道，提供更快的转录速度。它支持OpenAI原始模型、HuggingFace模型和CTranslate2模型等多种推理引擎。该项目具有集成自定义VAD模型、智能处理音频文件、支持多语言和多任务批处理等特点，并能有效减少幻觉输出。WhisperS2T在保持高准确度的同时大幅提升转录速度，为用户提供高效的语音识别解决方案。

sew-d-tiny-100k-ft-ls100h - SEW-D架构语音识别模型实现性能与效率的优化平衡

GithubHuggingfaceLibriSpeechSEW-D开源项目模型深度学习自然语言处理语音识别

sew-d-tiny-100k-ft-ls100h是基于SEW-D架构的预训练语音识别模型，在LibriSpeech数据集上经过微调。模型在clean测试集和other测试集上分别达到10.47%和22.73%的词错误率，同时推理速度比wav2vec 2.0提升1.9倍。这一模型在保持识别准确率的基础上大幅提高了效率，可应用于自动语音识别、说话人识别等多种语音处理任务，为相关领域提供了性能与效率兼具的解决方案。

wav2vec2-large-960h-lv60-self - Wav2Vec2大规模语音识别模型实现低词错误率

GithubHuggingfaceLibriSpeechWav2Vec2开源项目模型模型评估自训练语音识别

Wav2Vec2-large-960h-lv60-self是一个基于Wav2Vec2技术的大规模语音识别模型。该模型在960小时的Libri-Light和Librispeech数据集上进行预训练和微调，采用自训练方法。在LibriSpeech清晰测试集上，模型实现1.9%的词错误率，其他测试集上为3.9%。模型可直接用于音频转录，特别适合标记数据有限的语音识别任务。

wav2vec2-large-lv60 - 深度学习实现高性能语音识别仅需少量标记数据

GithubHuggingfaceWav2Vec2开源项目模型深度学习语音识别语音预训练音频处理

Wav2Vec2是Facebook开发的语音预训练模型，通过无监督学习从原始音频中提取语音特征。该模型在大规模未标注数据上预训练后，能够以极少量的标注数据实现高性能语音识别。在LibriSpeech测试集上，全量标注数据训练可达1.8/3.3词错率；仅用1小时标注数据即超过先前100小时数据的最佳结果；10分钟标注数据也能实现4.8/8.2词错率。Wav2Vec2为低资源环境下的高质量语音识别提供了新的可能性。

wav2vec2-large-960h - 大规模预训练语音识别模型实现低资源高性能

GithubHuggingfaceLibrispeechWav2Vec2开源项目模型深度学习自然语言处理语音识别

Wav2Vec2-Large-960h是Facebook开发的预训练语音识别模型，在960小时LibriSpeech数据上微调。采用自监督学习从原始音频学习表示，在低资源场景下表现优异。LibriSpeech测试集上词错误率为1.8/3.3。模型可用于语音转写，提供了详细使用示例。

vits2_pytorch - 单阶段文本到语音转换的效率与质量提升

GithubVITS2单阶段模型对抗学习开源项目文本转语音架构设计

VITS2_pytorch是一款先进的单阶段文本到语音转换模型，采用对抗学习和架构设计改进前代产品。这一最新的非官方实现版本，旨在通过增强模型结构和训练机制，有效提升语音自然度和特征相似性，同时显著降低对音素转换的依赖，从而提高训练和推断的效率。该项目还为专业人士提供了预训练模型和多种语言的样本音频，支持开箱即用的转换学习。

wav2vec2-base-960h - Facebook开发的高效语音识别模型

GithubHuggingfaceLibriSpeechWav2Vec2开源项目模型深度学习自然语言处理语音识别

wav2vec2-base-960h是Facebook开发的语音识别模型，基于960小时LibriSpeech数据集训练。在LibriSpeech clean/other测试集上，词错误率分别为3.4%和8.6%。模型可从原始音频学习表征，仅需1小时标记数据即可超越现有方法，展示了低资源语音识别的潜力。

wav2vec2-conformer-rope-large-960h-ft - Wav2Vec2 Conformer模型在Librispeech数据集上的语音识别应用

ConformerGithubHuggingfaceLibriSpeechWav2Vec2开源项目模型自然语言处理语音识别

这是一个基于Wav2Vec2 Conformer架构的语音识别模型，采用旋转位置嵌入技术，在Librispeech数据集的960小时音频上完成预训练和微调。模型在Librispeech测试集上表现优异，'clean'和'other'子集的词错误率分别为1.96%和3.98%。支持16kHz采样的语音输入，适用于精确的语音转文本任务。

faster-whisper-small - 多语言语音识别的高效CTranslate2模型转换

CTranslate2GithubHuggingfaceOpenAIWhisper small开源项目模型模型转换音频识别

faster-whisper-small项目将openai的whisper-small模型转换为CTranslate2格式，支持多语言自动语音识别，采纳FP16精度以优化性能。此模型可用于CTranslate2基础项目，如faster-whisper，为开发者提供高效的语音转录方案。

data2vec-audio-base-960h - 利用自监督学习提升语音识别效率的开源框架

Data2VecGithubHuggingfaceTransformer开源项目模型自动语音识别自监督学习语言模型

Data2Vec是一种开源模型，基于Librispeech数据集进行960小时的16kHz语音音频的预训练和微调，在语音识别领域表现优异。利用自监督学习与自蒸馏手段，Data2Vec准确提取上下文信息，优化了自动语音识别的表现。在LibriSpeech的测试中，取得了“clean”任务2.77和“other”任务7.08的词错误率（WER），体现了其在业内的竞争力。

项目侧边栏1

项目侧边栏2

推荐项目

Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能，包括文生视频、动态画面和形象生成等，帮助用户快速上手，创造专业级内容。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

Project Cover

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台，用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品，帮助用户探索创意灵感。

Project Cover

讯飞文书

讯飞文书依托讯飞星火大模型，为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能，满足事务性工作的高频需求，帮助撰稿人节省精力，提高效率，优化工作与生活。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具，简化了选题、文献检索至论文撰写的整个过程。通过简单设定，平台可快速生成高质量论文大纲和全文，配合图表、参考文献等一应俱全，同时提供开题报告和答辩PPT等增值服务，保障数据安全，有效提升写作效率和论文质量。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号