#自动语音识别

wav2vec2-indonesian-javanese-sundanese - 印尼、爪哇和巽他语的多语言语音识别模型

Github开源项目模型多语言Huggingface印尼语自动语音识别语音识别Wav2Vec2

利用优化的Wav2Vec2模型，专注于印尼、爪哇和巽他语的多语言语音识别，数据来自Common Voice和TTS数据集，拥有较低字错误率并提供在线演示，工具无需语言模型，适合16kHz语音输入，帮助研究人员和开发者探索多语言识别技术。

wav2vec2-lv-60-espeak-cv-ft - 利用微调的wav2vec2模型提升多语言语音和语素识别能力

语音识别Huggingface开源项目模型自主学习自动语音识别GithubWav2Vec2跨语言

wav2vec2-large-lv60模型经过多语言Common Voice数据集微调，实现跨语言语音与语素识别。模型在16kHz采样率的语音输入下输出语素标签，需使用语素到单词的映射字典进行转换。该方法在未见语言的转录中表现优异，超过以往单一语言模型的效果。

parakeet-tdt_ctc-110m - 流畅高效的FastConformer TDT-CTC语音识别解决方案

NVIDIA NeMoHuggingface模型架构开源项目模型快速Conformer自动语音识别Github语音转写

该模型融合FastConformer与TDT-CTC架构，专为英文语音识别而优化，支持转录标点和大写字母。以高效架构处理长达20分钟音频数据，通过NVIDIA NeMo和Suno团队训练，在多个基准数据集中表现优异。通过NeMo工具包，预训练检查点便于进行模型推理或微调。

相关文章

Article Cover

语音合成技术的最新进展与应用

2024年08月30日

Article Cover

Athena: 开源序列到序列语音处理引擎的革新之作

2024年08月30日

Article Cover

Whisper.rn: 在React Native中集成OpenAI的Whisper语音识别模型

2024年08月31日

Article Cover

TensorFlowASR: 基于TensorFlow 2的先进自动语音识别框架

2024年09月04日

Article Cover

Alan SDK for Android: 构建智能语音交互应用的强大工具

2024年09月04日

Article Cover

Alan SDK Cordova: 为 Apache Cordova 应用添加语音 AI 助手

2024年09月04日

Article Cover

awesome-speech-recognition-speech-synthesis-papers学习资料汇总 - 语音识别与合成领域顶级论文集锦

2024年09月10日

Article Cover

Athena入门学习资料 - 开源端到端语音处理引擎

2024年09月10日

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号