MASR: 一个强大的自动语音识别框架

Ray

MASR

MASR: 神奇的自动语音识别框架

MASR是一个基于PyTorch实现的自动语音识别框架,全称为"Magical Automatic Speech Recognition"(神奇的自动语音识别)。作为一个功能强大且易于使用的开源项目,MASR致力于为研究人员和开发者提供简单实用的语音识别解决方案。

项目特点

MASR具有以下主要特点:

  1. 支持流式和非流式识别:可以根据需求灵活选择识别模式。

  2. 多种先进模型:支持Conformer、Squeezeformer、DeepSpeech2等多种语音识别模型。

  3. 数据增强:提供多种数据增强方法,提高模型鲁棒性。

  4. 解码器选择:支持集束搜索和贪心两种解码方式。

  5. 跨平台支持:可部署在服务器、Nvidia Jetson设备,未来还计划支持Android等移动设备。

  6. 易于使用:提供详细的文档和教程,快速上手。

快速开始

使用MASR进行语音识别非常简单。以下是一个简单的短语音识别示例:

from masr.predict import MASRPredictor

predictor = MASRPredictor(model_tag='conformer_streaming_fbank_aishell')

wav_path = 'dataset/test.wav'
result = predictor.predict(audio_data=wav_path, use_pun=False)
score, text = result['score'], result['text']
print(f"识别结果: {text}, 得分: {int(score)}")

对于长语音识别和流式识别,MASR也提供了相应的接口,使用方便。

MASR架构图

模型与性能

MASR提供了多个预训练模型,覆盖了不同的应用场景:

  1. 基于WenetSpeech(10000小时)数据集训练的模型
  2. 基于WenetSpeech+中文语音数据集(13000+小时)训练的模型
  3. 基于AIShell(179小时)数据集训练的中文模型
  4. 基于Librispeech(960小时)数据集训练的英文模型

这些模型在各自的测试集上都取得了不错的性能。例如,在AIShell测试集上,使用Conformer模型可以达到4.491%的字错率。

丰富的文档

MASR提供了全面的文档支持,包括:

  • 安装指南
  • 快速使用教程
  • 数据准备说明
  • 模型训练指南
  • 评估方法介绍
  • 模型导出说明
  • 预测部署教程

这些文档可以帮助用户快速上手并深入使用MASR框架。

社区支持

MASR拥有活跃的社区支持。用户可以通过以下方式获取帮助和交流:

  • GitHub Issues
  • 知识星球
  • QQ群

开发者欢迎用户提出问题、反馈建议,共同推动项目的发展。

MASR社区

未来展望

MASR团队将继续改进和扩展项目功能,计划包括:

  1. 支持更多先进的语音识别模型
  2. 优化流式识别性能
  3. 增加对更多语言的支持
  4. 提供更多预训练模型
  5. 改进部署方案,支持更多平台

MASR致力于成为一个全面、易用、高性能的语音识别开源框架,为语音识别技术的发展和应用做出贡献。

无论您是语音识别研究人员、应用开发者,还是对语音技术感兴趣的爱好者,MASR都值得一试。欢迎访问MASR GitHub 仓库了解更多信息,参与项目开发,一起推动语音识别技术的进步!

avatar
0
0
0
相关项目
Project Cover

wav2vec2-lv-60-espeak-cv-ft

wav2vec2-large-lv60模型经过多语言Common Voice数据集微调,实现跨语言语音与语素识别。模型在16kHz采样率的语音输入下输出语素标签,需使用语素到单词的映射字典进行转换。该方法在未见语言的转录中表现优异,超过以往单一语言模型的效果。

Project Cover

wav2vec2-xlsr-1b-finnish-lm-v2

wav2vec2-xlsr-1b-finnish-lm-v2模型基于Facebook AI的多语言预训练模型,为芬兰语自动语音识别进行了优化,使用275.6小时的录音数据进行精调。模型在Common Voice 7.0和FLEURS ASR数据集的测试中取得了4.09%的词错误率(WER)和12.11%的WER。模型配有芬兰语KenLM语言模型用于解码,适合短语音片段处理。其在正式语境中的表现较佳,但普及日常口语和方言的能力有限。可通过训练自定义KenLM以适应特定领域语言。

Project Cover

wav2vec2-xls-r-300m-phoneme

该模型是在Facebook的wav2vec2-xls-r-300m基础上进行微调,专注于语音处理任务,损失函数为0.3327,字符错误率为0.1332。使用了先进的参数优化和混合精度训练技术,适用于多种语音识别和处理场景。

Project Cover

wav2vec2-large-xlsr-53-th-cv8-newmm

这是一个针对泰语的开源语音识别模型,通过微调wav2vec2-large-xlsr-53并整合CommonVoice V8数据集实现。模型采用pythainlp进行预分词,结合语言模型显著提升性能。在CommonVoice V8测试集上,模型实现12.58%的词错率和3.28%的字符错率,较基准模型大幅提升。该项目代表了当前泰语语音识别领域的先进水平。

Project Cover

wav2vec2-base-superb-er

wav2vec2-base-superb-er是一个针对SUPERB情感识别任务优化的语音情感识别模型。该模型可从16kHz采样的语音中提取声学特征,识别说话者的情感状态。经IEMOCAP数据集训练后,模型能识别4种主要情感类别,测试集识别准确率为62.58%。模型提供pipeline接口和直接调用方式,便于快速部署语音情感分析应用。

Project Cover

whisper-small-fa

Whisper-small-fa是一个基于openai/whisper-small模型在common_voice_17_0数据集上微调的版本,旨在实现高效的自动语音识别。测试集结果显示,该模型的词错误率(WER)为35.4973,体现了其在语音识别中的良好表现。模型训练中应用了Adam优化器、线性学习率调度器及混合精度技术,从而提高了训练的效率和精确度。

Project Cover

wav2vec2-indonesian-javanese-sundanese

利用优化的Wav2Vec2模型,专注于印尼、爪哇和巽他语的多语言语音识别,数据来自Common Voice和TTS数据集,拥有较低字错误率并提供在线演示,工具无需语言模型,适合16kHz语音输入,帮助研究人员和开发者探索多语言识别技术。

Project Cover

english-filipino-wav2vec2-l-xls-r-test-09

这是一个基于wav2vec2-large-xlsr-53-english模型在filipino_voice数据集上微调的英语-菲律宾语语音识别模型。通过20轮训练,模型在评估集上达到1.0054的损失值和57.50%的词错误率。采用Adam优化器、线性学习率调度和混合精度训练等技术,模型性能逐步提升,最终实现了较好的双语语音识别效果。

Project Cover

ultravox-v0_4

Ultravox是一种多模态语言模型,结合了Llama3.1-8B和Whisper-medium技术,支持语音和文本的输入。通过特殊音频标记,该模型将音频转换为文本嵌入以生成输出。未来版本计划支持直接生成语音。Ultravox可以应用于语音代理、翻译和音频分析。模型使用多语种语音识别数据集进行训练,并在8x H100 GPU上运用BF16精度。最新版本在A100-40GB GPU上实现首次生成标记时间约为150毫秒。

最新项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计 是一个多功能的在线设计和创意平台,提供广泛的设计工具和资源,以满足不同用户的需求。从专业的图形设计师到普通用户,无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑,稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合,帮助用户轻松实现创意设计。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号