#语音识别

leon - 开源个人助手Leon结合隐私保护与AI技术

Leon开源个人助理NLP技术语音识别技能共享Github开源项目

Leon是一个开源的个人助手，通过整合最新的TTS和ASR引擎及混合NLP技术，提供快速、定制和精准的服务。用户可以在自己的服务器上运行Leon，实现离线交流，确保隐私。Leon支持语音和文本交流，并拥有扩展技能的结构，开发者可以创建和分享技能。随着项目的发展，Leon引入了基于transformers的模型，并计划建立一个技能注册平台，鼓励社区共同开发新功能。

vosk-api - 离线开源多语言语音识别工具，支持多种设备

Vosk语音识别离线开源工具包多语言支持Github开源项目

Vosk是一款离线开源语音识别工具包，支持20多种语言和方言。其模型体积小（仅50MB），但能提供连续的大词汇量转录、零延迟响应和流媒体API。支持Python、Java、Node.JS、C#、C++、Rust、Go等多种编程语言。适用于聊天机器人、智能家居设备、虚拟助手，也能为电影创建字幕、为讲座和采访生成转录。Vosk从Raspberry Pi等小型设备到大型集群均可扩展。访问Vosk官网获取安装指南、示例和文档。

wav2letter - 端到端语音识别解决方案

wav2letter++FlashlightASR语音识别卷积神经网络Github开源项目

wav2letter++现已整合到Flashlight中，专注于端到端和在线语音识别的研究。该项目提供多种预训练模型和数据准备指南，适用于有监督和半监督学习。通过Flashlight的ASR应用实现所有功能，确保高效、准确的语音识别。

whisper - 多语种语音识别与翻译解决方案

Whisper语音识别多语言处理OpenAITransformer模型Github开源项目热门

Whisper是一个通用语音识别模型，支持多种语言处理任务，如语音翻译和语言识别。该模型基于大规模多样化音频数据集进行训练，利用Transformer技术实现高效的序列到序列学习。用户可以通过简单的命令或Python代码实现快速准确的语音识别与翻译，是一个适用于多种应用场景的强大工具。支持多个模型大小和语言选项，用户可根据需求选择合适的模型。

stt - 高效离线本地语音识别工具，基于fast-whisper模型，支持多种输出格式

语音识别fast-whisper本地部署CUDA加速文本输出Github开源项目热门

这款语音识别工具可在本地离线运行，基于开源的fast-whisper模型，可将视频和音频中的人声快速转换为文字。支持输出json、srt及纯文本格式，无需联网，确保隐私安全，与openai语音识别接口准确率相当。用户可便捷下载预编译版本，或自行部署源码，支持多种操作系统。此外，还提供API接口，适合开发者使用。支持CUDA加速，优化处理速度。

NeMo - 人工智能训练和部署平台

NVIDIA NeMo大语言模型生成式AI多模态模型语音识别Github开源项目热门

NeMo框架是NVIDIA开发的一款云原生生成式AI框架，专为研究人员和使用PyTorch的开发者设计，支持大型语言模型、多模态模型、自动语音识别等多个领域。该框架能够利用现有代码和预训练的模型检查点，帮助用户高效创建和定制新的生成式AI模型。通过广泛的教程和文档，用户可以轻松开始使用NeMo框架，无论是在任何云端还是本地环境中。

PaddleSpeech - 全面的开源语音处理工具集，涵盖语音识别、语音合成、说话人验证等多项功能

PaddleSpeech语音识别文本转语音声纹识别语音合成Github开源项目热门

PaddleSpeech是基于PaddlePaddle平台的开源语音处理工具集，覆盖自动语音识别、文本转语音合成、说话人确认及声音分类等多项功能，提供易于使用、高效和灵活的模型，支持各类语音相关任务。工具集包含全流程服务，支持流式识别与合成系统，为研究和工业应用提供强大支持。

飞书妙记 - 智能转录会议内容

办公工具AI工具飞书妙记智能会议纪要语音识别视频会议自动总结AI办公热门

飞书妙记提供智能会议纪要与语音转文字服务，支持视频音频自动转录和多语言翻译，有效优化协作流程，提升信息管理效率。

序列猴子 - 灵活多轮交互与多模态语言处理，驱动企业智能化升级

AI开发热门模型训练AI工具序列猴子语音识别文本生成图片生成视频生成

序列猴子开放平台借助其超大规模语言模型，有效支持多模态的语音、文本、和图像处理。此平台通过其卓越的语言理解与生成技术，优化企业流程，加速智能化转型，实现用户体验与业务效率的双重提升。

场辞 - AI自动化视频字幕快速生成工具

热门AI视频视频生成AI工具场辞字幕制作自动识别语音识别视频编辑

场辞是一款集成先进语音识别技术的视频字幕软件，能在数分钟内自动完成高达97.5%准确率的字幕生成，支持多种文件格式。其一键添加字幕、实时预览功能及多轨编辑，使其成为自媒体、教育及短视频制作的理想选择，有效提升制作流程的效率和质量。

FunClip - 开源的视频剪辑工具

FunClip视频剪辑工具语音识别人工智能开源软件Github开源项目

FunClip 是一个开源的自动化视频剪辑工具，使用阿里巴巴 TONGYI 语音实验室的 FunASR 模型系列进行语音识别。用户可以选择识别结果中的文本片段或发言人，一键获取对应的视频片段。支持 LLM AI 剪辑、多段剪辑和字幕生成等功能，操作简单，提供 Gradio 交互界面和命令行使用方式，可部署在服务器上，通过浏览器访问。现已支持中英文音频文件剪辑，提供智能剪辑和热词定制功能。

AudioGPT - 多功能音频生成与理解平台，支持语音、音乐、音效及虚拟人对话

AudioGPT语音识别音频合成语音增强音乐生成Github开源项目

AudioGPT 是一个多功能音频生成与理解平台，具备语音合成、语音识别、语音分离、风格迁移、声音检测、声音提取、文本到音频转换等功能，还支持音乐生成与虚拟人对话。集成了 FastSpeech、whisper、GeneFace 等多个领先的基础模型，AudioGPT 为开发者提供强大的开源工具和预训练模型，支持多种音频相关任务，不断扩展其功能和应用场景。此平台适合音频处理、自然语言处理及多模态研究的需求。

Awesome-AITools - 集合人工智能相关工具的超级资源库

ChatGPTAI生成音乐文本到视频开源LLMs语音识别Github开源项目

Awesome-AITools是一个收集了各类人工智能相关工具的综合资源平台，覆盖编程开发、图像创作、语音识别等多种应用。用户可以快速找到适应不同场景的AI工具，从开发和研究到日常使用，都能获得强大支持。特色包括开源共享、资源丰富、持续更新及社区支持。

silero-models - 提供预训练的企业级语音识别和合成模型

Silero Models语音识别文本转语音PyTorchONNXGithub开源项目

silero-models展示高质量预训练语音识别与合成模型，提供简化的企业级语音技术解决方案，性能匹敌谷歌STT。模型即用、支持多语言、语音合成自然，将企业和开发者的部署流程简化至极致。

speech-recognition-uk - 乌克兰语自动语音识别和语音合成

语音识别语音合成自动化语音转文本Ukrainian自然语言处理Github开源项目

本项目集成了乌克兰语的自动语音识别和语音合成的最新进展与数据集。详细涵盖了多种语音模型如wav2vec2和Citrinet，同时提供模型评估和测试结果。加入我们的Discord或Telegram社区，共同推动乌克兰语语音技术的前沿发展。

make-a-smart-speaker - 制作智能扬声器的资源集合

智能扬声器语音识别开源项目语音助手语音处理Github

本文提供如何从头开始制作智能音箱的详细指南和优质资源。文章覆盖音频处理、关键词检测、语言理解至文本转语音的全面步骤，介绍开源项目如Mycroft、Snips以及Amazon Alexa和Google Assistant等硬件SDK。提供硬件套件链接，帮助开发者和技术爱好者构建并优化智能音箱项目。

android-speech - 简化的Android语音识别和文字转语音功能

Android Speech语音识别文本转语音Speech.initGradleGithub开源项目

android-speech库，当前版本x.y.z，为Android开发者提供便捷、高效的语音识别与文字转语音解决方案。该库支持简单的初始化设置和API调用，提供多语言和多种声音选项，配备有自定义进度动画。

mrcp-plugin-with-freeswitch - 开源的FreeSWITCH和UniMRCP语音处理项目

FreeSWITCHUniMRCP语音识别语音合成讯飞SDKGithub开源项目

mrcp-plugin-with-freeswitch 项目利用FreeSWITCH实现实时语音处理，结合UniMRCP Server集成讯飞开放平台（xfyun）插件进行语音识别和合成。项目包括完善的安装和配置指南，便于快速构建端到端的语音呼叫中心，支持多种操作系统，包括MacOS和Linux平台。

StreamSpeech - 在线和实时翻译模型

StreamSpeech语音识别语音翻译多任务学习实时合成Github开源项目

StreamSpeech通过一个整合的模型，在线和实时翻译中展现行业领先水平，支持多达8种包括语音识别和语音转换任务。提供Web GUI演示，允许用户在浏览器中直接体验。探索StreamSpeech的功能和实例。

parrots - 支持多语言的语音识别与语音合成工具套件

Parrots语音识别语音合成自动化多语言支持Github开源项目

Parrots工具套件整合了先进的多语言语音识别与语音合成技术，提供中文、英文及日文支持。其功能强大的ASR与TTS模型旨在为开发者打造快速、高效的语音交互体验。安装简便，适合处理多种语言的语音数据。

awesome-audio-plaza - 全球音频领域的最新研究成果和创新项目

音频项目自然语言处理语音合成音乐生成语音识别Github开源项目

Awesome Audio Plaza汇聚全球音频领域的最新研究成果和创新项目。涵盖自然语音合成、音乐创作、自动语音识别至声音转换等多个子领域，为研究人员、学者及爱好者提供了一个内容丰富的信息平台。该平台通过整合arxiv、Hugging Face日报、Twitter、GitHub等多种资源，确保用户能够访问到前沿科研和技术动态。

espnet - 端到端语音处理工具包，涵盖语音识别及转换

ESPnet语音识别文本转语音语音处理深度学习Github开源项目

ESPnet是一个端到端语音处理模块，封装了多个领域的语音处理任务，如语音识别、文本到语音、语音翻译、语音增强和说话人分割等。该平台基于Pytorch开发，采用符合Kaldi风格的数据处理方法，提供针对各类语音处理实验的完整解决方案。ESPnet支持多语言处理，并能够调整自身以适应不同的语言和环境。

LangHelper - 多语言对话、发音评分及语音合成工具

ChatGPTLangHelper发音评分语音识别AI发音Github开源项目

LangHelper提供多种口音的AI语音对话、双语识别技术，以及针对IELTS/TOEFL考试的发音评分服务。用户可以模拟与名人对话或加载个性化TTS模型进行特定发音训练，同时支持espeak-ng等开源语音库。支持免安装使用，简化语音实践与评估流程。

awesome-speech-recognition-speech-synthesis-papers - 语音识别与合成技术研究关键论文集锦

语音识别语音合成深度学习神经网络自动语音识别Github开源项目

本项目汇聚了语音识别与语音合成领域的重要研究论文，涵盖多个子领域，包括自动语音识别（ASR）、说话人验证、声音转换和语音合成（TTS）等。提供广泛的研究成果和方法论参考，这些资源可以帮助研究人员和开发人员探索从文本到音频的转换技术和相关音乐建模应用。该资源适用于学术研究和实际开发中的技术革新和行业推动。

dsnote - 支持多语言的离线语音及文本处理应用

Speech Note语音识别语音合成机器翻译数据隐私Github开源项目

Speech Note是一款集成多语言支持的Linux桌面与Sailfish OS平台应用，提供离线语音识别和翻译，保证了极高的隐私性，无需联网即可快速完成文字和语音的转换和翻译。适用于对隐私要求高的笔记、阅读和翻译等多场景使用。

Maix-Speech - AI嵌入式设备快速语音处理库

Maix-Speech语音识别嵌入式设备TTSASRGithub开源项目

Maix-Speech是一款面向嵌入式设备的AI语音库，涵盖语音识别、对话系统和文本到语音转换等多种功能，目前支持中文。此项目遵循Apache 2.0许可证。

TTS-Voice-Wizard - 一款多功能语音互动工具

TTS-Voice-Wizard语音识别文字转语音虚拟现实多语言翻译Github开源项目

TTS-Voice-Wizard是一款多功能语音互动工具，可用于VRChat和其他平台。它支持将语音转化为文本，文本再转化为语音，支持50多种语言的实时翻译和超过100种的语音选项。工具还能显示Spotify或浏览器的播放音乐和VR设备电池状况，同时支持以语音命令控制VRChat头像。

klaam - 阿拉伯语多功能语音处理技术，识别、分类与转换

klaam语音识别文本转语音wav2vecfastspeech2Github开源项目

klaam项目通过采用尖端技术模型如wave2vec和fastspeech2，提供全面的阿拉伯语语音识别、分类和文字转语音服务。支持多种方言和数据集，便于培训、预测与快速部署。

awesome-whisper - 开源AI语音识别技术

Whisper语音识别OpenAI音频转录AIGithub开源项目

Whisper是OpenAI开发的开源AI语音识别系统，支持多种语言和平台，具备高精度和实时处理能力，并适用于开发者和企业进行高效集成。

whisper.cpp - 跨平台自动语音识别模型推理工具

whisper.cpp语音识别Apple SiliconOpenAI Whisper高性能Github开源项目

whisper.cpp是基于OpenAI Whisper的C/C++自动语音识别（ASR）模型实施，针对Apple Silicon经过优化，并支持多平台部署。该项目以极低的内存消耗和CPU/GPU推理能力，覆盖Mac OS、iOS、Android等主流平台，提供灵活的API与多样的定制模型，使开发者能够轻松地融合语音功能。

flutter_gpt_box - 用于访问OpenAI API的第三方GPT客户端，支持多语言聊天和跨平台同步

Flutter GPT BoxOpenAI聊天多平台语音识别Github开源项目

flutter_gpt_box是一款用于访问OpenAI API的第三方GPT客户端，支持文本、图片和音频聊天，查看HTTP链接内容和多语言本地化。提供恢复ChatGPT Next Web备份和OpenAI导出文件功能，支持通过WebDAV和iCloud进行多平台同步，并支持桌面和移动设备的使用。目前该应用仍在开发中，建议避免在生产环境中使用。

phrame - 通过监听周围对话生成独特的视觉艺术作品的AI应用

Phrame艺术生成语音识别OpenAIDockerGithub开源项目

Phrame通过监听周围对话，生成独特的视觉艺术作品。它的功能包括从对话生成AI艺术品、实时更新、远程控制和支持多种生成AI图像服务。用户界面友好，适用于桌面和移动设备，并通过WebSockets实现实时更新和远程控制。用户能通过语音命令管理画廊，浏览、收藏和删除图像，并访问和管理日志。隐私保护严格，所有转录内容仅在本地设备处理和保存。

use-whisper - 适用于OpenAI Whisper API的React Hook，支持语音录制和静音消除

useWhisperReact HookOpenAI语音识别实时转录Github开源项目

useWhisper 是一个为 OpenAI Whisper API 提供的 React Hook，具备语音录制、实时转录和静音消除功能。正在开发的 React Native 版本将使移动应用开发更便捷。用户可以通过 npm 或 yarn 安装，并通过丰富的配置和回调函数实现自定义转录。主要依赖项包括 recordrtc、lamejs、ffmpeg、hark 和 axios，是开发者进行语音处理和转录的理想工具。

openai-whisper-api - 多功能开源语音转文字API，支持多语言和多任务

OpenAI Whisper API语音识别Node.jsDockerTypescriptGithub开源项目

OpenAI Whisper API是一种开源AI模型微服务，采用OpenAI先进的语音识别技术，支持多语言识别、语言识别和语音翻译。该服务基于Node.js、Bun.sh和Typescript构建，可在无依赖的Docker环境中运行，适用于语音和语言相关的应用。无论是转录语音消息、改进系统性能，还是探索Whisper API的功能，这都是一个强大的工具，且采用MIT许可证，开发者可以轻松使用。

RuntimeSpeechRecognizer - 基于OpenAI的Whisper的语音识别项目

Runtime Speech Recognizer语音识别OpenAI's WhisperUnreal Engine高性能Github开源项目

RuntimeSpeechRecognizer是一个高效的语音识别项目，基于OpenAI的Whisper技术，提供快速且准确的识别。支持英语和多语言（多达100种语言），提供从75 MB到2.9 GB多种模型尺寸。自动下载语言模型，支持将识别的语音翻译成英语，特性可定制，无需静态库或外部依赖，兼容多个平台（Windows、Mac、Linux、Android、iOS等）。

DeepSpeech - 开源的深度学习语音识别引擎

Project DeepSpeechTensorFlow开源语音识别机器学习Github开源项目

DeepSpeech是一个开源语音转文字引擎，基于百度的Deep Speech研究，并利用Google TensorFlow实现。提供详细的安装、使用和训练模型文档。最新版本及预训练模型可在GitHub获取，支持和贡献指南请参阅相应文件。

相关文章

Article Cover

StreamSpeech入门学习资料 - "全能"语音识别、翻译与合成模型

Article Cover

awesome-audio-plaza学习资料汇总 - 音频AI技术论文和资源追踪项目

Article Cover

mrcp-plugin-with-freeswitch资源学习总结 - FreeSWITCH与UniMRCP Server集成讯飞语音服务入门指南

Article Cover

speech-recognition-uk学习资料汇总 - 乌克兰语语音识别与合成项目

Article Cover

TTS-Voice-Wizard 学习资料汇总 - 免费开源的语音转文字和文字转语音应用

Article Cover

awesome-speech-recognition-speech-synthesis-papers学习资料汇总 - 语音识别与合成领域顶级论文集锦

Article Cover

LangHelper入门学习资料 - 基于ChatGPT和AI模型的强大语言学习应用

Article Cover

dsnote 学习资料汇总 - 离线语音识别、文本转语音和机器翻译工具

Article Cover

Android Speech使用指南 - 简化语音识别与文字转语音

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号