#自动语音识别

Athena入门学习资料 - 开源端到端语音处理引擎

2 个月前
Cover of Athena入门学习资料 - 开源端到端语音处理引擎

awesome-speech-recognition-speech-synthesis-papers学习资料汇总 - 语音识别与合成领域顶级论文集锦

2 个月前
Cover of awesome-speech-recognition-speech-synthesis-papers学习资料汇总 - 语音识别与合成领域顶级论文集锦

Alan SDK Cordova: 为 Apache Cordova 应用添加语音 AI 助手

3 个月前
Cover of Alan SDK Cordova: 为 Apache Cordova 应用添加语音 AI 助手

Alan SDK for Android: 构建智能语音交互应用的强大工具

3 个月前
Cover of Alan SDK for Android: 构建智能语音交互应用的强大工具

TensorFlowASR: 基于TensorFlow 2的先进自动语音识别框架

3 个月前
Cover of TensorFlowASR: 基于TensorFlow 2的先进自动语音识别框架

Whisper.rn: 在React Native中集成OpenAI的Whisper语音识别模型

3 个月前
Cover of Whisper.rn: 在React Native中集成OpenAI的Whisper语音识别模型

Athena: 开源序列到序列语音处理引擎的革新之作

3 个月前
Cover of Athena: 开源序列到序列语音处理引擎的革新之作

语音合成技术的最新进展与应用

3 个月前
Cover of 语音合成技术的最新进展与应用
相关项目
Project Cover

awesome-speech-recognition-speech-synthesis-papers

本项目汇聚了语音识别与语音合成领域的重要研究论文,涵盖多个子领域,包括自动语音识别(ASR)、说话人验证、声音转换和语音合成(TTS)等。提供广泛的研究成果和方法论参考,这些资源可以帮助研究人员和开发人员探索从文本到音频的转换技术和相关音乐建模应用。该资源适用于学术研究和实际开发中的技术革新和行业推动。

Project Cover

whisper.rn

whisper.rn是React Native环境中OpenAI的Whisper自动语音识别模型的高性能实现,支持iOS和Android平台,具备实时转录功能,并集成Core ML和NDK优化。项目提供详细的安装与使用指南及实用技巧,适合在移动应用中集成语音识别功能。

Project Cover

alan-sdk-cordova

该平台提供必要工具,通过语音指令实现人性化对话和操作。Alan AI Studio是功能强大的Web IDE,用于编写、测试和调试对话场景。Alan AI SDK可快速嵌入AI代理,后台通过先进的ASR和NLU进行数据处理。无需大幅更改UI,服务器环境免维护,可实时更新对话内容,并提供对话流测试和分析工具。

Project Cover

TensorFlowASR

TensorFlowASR提供了多种自动语音识别模型,如DeepSpeech2、Jasper和RNN Transducer,支持转换为TFLite格式以减少内存和计算需求。此项目适用于Python 3.8及以上版本和TensorFlow 2.12.0及以上版本,支持多平台,包括Apple Silicon,并提供详细的安装和开发指南。

Project Cover

alan-sdk-android

Alan AI 提供丰富工具集,快速将 AI 代理嵌入 Android 应用,实现人性化对话和语音命令操作。通过 Alan AI Studio 创建对话脚本,无需大幅更改 UI,后台自动处理语音识别和自然语言处理,支持对话流测试和数据分析,实现即时更新和无服务器环境。

Project Cover

parakeet-tdt_ctc-1.1b

parakeet-tdt_ctc-1.1b提供了一个功能强大的语音识别模型,支持将语音转录为包含标点和大写字母的文本。由NVIDIA NeMo和Suno.ai团队联合开发,拥有1.1B的参数规模,能够高效地处理大规模的音频数据。该模型利用局部注意力和全局令牌技术实现单次处理11小时音频。其在多个公开数据集上的出色表现,表明其在语音转录应用中有广泛的适用性和较低的词错误率(WER)。

Project Cover

faster-whisper-base

faster-whisper-base是将OpenAI的Whisper-base模型转换为CTranslate2格式的项目,支持多语言自动语音识别。模型保留FP16精度,用户可以通过CTranslate2的compute_type选项进行模型类型调整,适合需要高效语音转录的应用。

Project Cover

wav2vec2-base-vietnamese-250h

项目应用wav2vec2技术实现越南语的自动语音识别。模型在13000小时的未标注YouTube音频上预训练,并在250小时的VLSP ASR数据集上进行微调,支持16kHz采样音频。结合4-grams语言模型,显著提高了语音识别的准确性,降低了VIVOS数据集的词错误率,从10.77降至6.15。项目使用CC BY-NC 4.0授权,适用于非商业用途。

Project Cover

athena

一款基于Tensorflow构建的开源端到端语音处理平台,旨在提升语音处理技术的研究与实际应用。支持自动语音识别、语音合成、关键词检测等多项功能,配备多GPU训练和无Kaldi的Python特征提取,实现了多种模型结构如FastSpeech和Conformer,适用于各类研究和应用需求。该平台在最新更新中加入了FastSpeech2和Conformer-CTC模型以优化处理速度和准确性。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号