#自动语音识别

Athena入门学习资料 - 开源端到端语音处理引擎

2024年09月10日

Athena 语音处理自动语音识别语音合成端到端模型 Github 开源项目

2024年09月10日

awesome-speech-recognition-speech-synthesis-papers学习资料汇总 - 语音识别与合成领域顶级论文集锦

2024年09月10日

语音识别语音合成深度学习神经网络自动语音识别 Github 开源项目

2024年09月10日

Alan SDK Cordova: 为 Apache Cordova 应用添加语音 AI 助手

2024年09月04日

Alan AI Apache Cordova 语音命令自动语音识别自然语言理解 Github 开源项目

2024年09月04日

Alan SDK for Android: 构建智能语音交互应用的强大工具

2024年09月04日

Alan AI 对话式AI 安卓SDK 自动语音识别自然语言理解 Github 开源项目

2024年09月04日

TensorFlowASR: 基于TensorFlow 2的先进自动语音识别框架

2024年09月04日

TensorFlowASR 自动语音识别深度学习 TFLite 模型训练 Github 开源项目

2024年09月04日

Whisper.rn: 在React Native中集成OpenAI的Whisper语音识别模型

2024年08月31日

whisper.rn 自动语音识别 React Native 音频转录 whisper.cpp Github 开源项目

2024年08月31日

Athena: 开源序列到序列语音处理引擎的革新之作

2024年08月30日

Athena 语音处理自动语音识别语音合成端到端模型 Github 开源项目

2024年08月30日

语音合成技术的最新进展与应用

2024年08月30日

语音识别语音合成深度学习神经网络自动语音识别 Github 开源项目

2024年08月30日

相关项目

awesome-speech-recognition-speech-synthesis-papers

本项目汇聚了语音识别与语音合成领域的重要研究论文，涵盖多个子领域，包括自动语音识别（ASR）、说话人验证、声音转换和语音合成（TTS）等。提供广泛的研究成果和方法论参考，这些资源可以帮助研究人员和开发人员探索从文本到音频的转换技术和相关音乐建模应用。该资源适用于学术研究和实际开发中的技术革新和行业推动。

whisper.rn

whisper.rn是React Native环境中OpenAI的Whisper自动语音识别模型的高性能实现，支持iOS和Android平台，具备实时转录功能，并集成Core ML和NDK优化。项目提供详细的安装与使用指南及实用技巧，适合在移动应用中集成语音识别功能。

alan-sdk-cordova

该平台提供必要工具，通过语音指令实现人性化对话和操作。Alan AI Studio是功能强大的Web IDE，用于编写、测试和调试对话场景。Alan AI SDK可快速嵌入AI代理，后台通过先进的ASR和NLU进行数据处理。无需大幅更改UI，服务器环境免维护，可实时更新对话内容，并提供对话流测试和分析工具。

TensorFlowASR

TensorFlowASR提供了多种自动语音识别模型，如DeepSpeech2、Jasper和RNN Transducer，支持转换为TFLite格式以减少内存和计算需求。此项目适用于Python 3.8及以上版本和TensorFlow 2.12.0及以上版本，支持多平台，包括Apple Silicon，并提供详细的安装和开发指南。

alan-sdk-android

Alan AI 提供丰富工具集，快速将 AI 代理嵌入 Android 应用，实现人性化对话和语音命令操作。通过 Alan AI Studio 创建对话脚本，无需大幅更改 UI，后台自动处理语音识别和自然语言处理，支持对话流测试和数据分析，实现即时更新和无服务器环境。

parakeet-tdt_ctc-1.1b

parakeet-tdt_ctc-1.1b提供了一个功能强大的语音识别模型，支持将语音转录为包含标点和大写字母的文本。由NVIDIA NeMo和Suno.ai团队联合开发，拥有1.1B的参数规模，能够高效地处理大规模的音频数据。该模型利用局部注意力和全局令牌技术实现单次处理11小时音频。其在多个公开数据集上的出色表现，表明其在语音转录应用中有广泛的适用性和较低的词错误率（WER）。

parakeet-rnnt-0.6b

parakeet-rnnt-0.6b是NVIDIA NeMo和Suno.ai联合开发的英语语音识别模型。采用FastConformer Transducer架构，拥有约6亿参数。在LibriSpeech测试集上错误率仅1.63%，多个数据集上表现优异。支持16kHz单声道音频输入，可通过NeMo工具包使用，适用于多种语音转文本场景。

parakeet-rnnt-1.1b

parakeet-rnnt-1.1b是NVIDIA NeMo和Suno.ai联合开发的英语语音识别模型。基于FastConformer Transducer架构，该模型拥有11亿参数，在64000小时英语语音数据上训练。它能准确将语音转录为小写英文文本，并在多个标准数据集上表现出色。研究人员可通过NeMo工具包使用该模型进行推理或微调，适用于多种语音识别场景。

athena

一款基于Tensorflow构建的开源端到端语音处理平台，旨在提升语音处理技术的研究与实际应用。支持自动语音识别、语音合成、关键词检测等多项功能，配备多GPU训练和无Kaldi的Python特征提取，实现了多种模型结构如FastSpeech和Conformer，适用于各类研究和应用需求。该平台在最新更新中加入了FastSpeech2和Conformer-CTC模型以优化处理速度和准确性。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com