#自动语音识别
wav2vec2-indonesian-javanese-sundanese - 印尼、爪哇和巽他语的多语言语音识别模型
Github开源项目模型多语言Huggingface印尼语自动语音识别语音识别Wav2Vec2
利用优化的Wav2Vec2模型,专注于印尼、爪哇和巽他语的多语言语音识别,数据来自Common Voice和TTS数据集,拥有较低字错误率并提供在线演示,工具无需语言模型,适合16kHz语音输入,帮助研究人员和开发者探索多语言识别技术。
wav2vec2-lv-60-espeak-cv-ft - 利用微调的wav2vec2模型提升多语言语音和语素识别能力
语音识别Huggingface开源项目模型自主学习自动语音识别GithubWav2Vec2跨语言
wav2vec2-large-lv60模型经过多语言Common Voice数据集微调,实现跨语言语音与语素识别。模型在16kHz采样率的语音输入下输出语素标签,需使用语素到单词的映射字典进行转换。该方法在未见语言的转录中表现优异,超过以往单一语言模型的效果。
parakeet-tdt_ctc-110m - 流畅高效的FastConformer TDT-CTC语音识别解决方案
NVIDIA NeMoHuggingface模型架构开源项目模型快速Conformer自动语音识别Github语音转写
该模型融合FastConformer与TDT-CTC架构,专为英文语音识别而优化,支持转录标点和大写字母。以高效架构处理长达20分钟音频数据,通过NVIDIA NeMo和Suno团队训练,在多个基准数据集中表现优异。通过NeMo工具包,预训练检查点便于进行模型推理或微调。
相关文章
语音合成技术的最新进展与应用
2024年08月30日
Athena: 开源序列到序列语音处理引擎的革新之作
2024年08月30日
Whisper.rn: 在React Native中集成OpenAI的Whisper语音识别模型
2024年08月31日
TensorFlowASR: 基于TensorFlow 2的先进自动语音识别框架
2024年09月04日
Alan SDK for Android: 构建智能语音交互应用的强大工具
2024年09月04日
Alan SDK Cordova: 为 Apache Cordova 应用添加语音 AI 助手
2024年09月04日
awesome-speech-recognition-speech-synthesis-papers学习资料汇总 - 语音识别与合成领域顶级论文集锦
2024年09月10日
Athena入门学习资料 - 开源端到端语音处理引擎
2024年09月10日