Logo

#语音识别

Logo of leon
leon
Leon是一个开源的个人助手,通过整合最新的TTS和ASR引擎及混合NLP技术,提供快速、定制和精准的服务。用户可以在自己的服务器上运行Leon,实现离线交流,确保隐私。Leon支持语音和文本交流,并拥有扩展技能的结构,开发者可以创建和分享技能。随着项目的发展,Leon引入了基于transformers的模型,并计划建立一个技能注册平台,鼓励社区共同开发新功能。
Logo of stt
stt
这款语音识别工具可在本地离线运行,基于开源的fast-whisper模型,可将视频和音频中的人声快速转换为文字。支持输出json、srt及纯文本格式,无需联网,确保隐私安全,与openai语音识别接口准确率相当。用户可便捷下载预编译版本,或自行部署源码,支持多种操作系统。此外,还提供API接口,适合开发者使用。支持CUDA加速,优化处理速度。
Logo of 序列猴子
序列猴子
序列猴子开放平台借助其超大规模语言模型,有效支持多模态的语音、文本、和图像处理。此平台通过其卓越的语言理解与生成技术,优化企业流程,加速智能化转型,实现用户体验与业务效率的双重提升。
Logo of Awesome-AITools
Awesome-AITools
Awesome-AITools是一个收集了各类人工智能相关工具的综合资源平台,覆盖编程开发、图像创作、语音识别等多种应用。用户可以快速找到适应不同场景的AI工具,从开发和研究到日常使用,都能获得强大支持。特色包括开源共享、资源丰富、持续更新及社区支持。
Logo of android-speech
android-speech
android-speech库,当前版本x.y.z,为Android开发者提供便捷、高效的语音识别与文字转语音解决方案。该库支持简单的初始化设置和API调用,提供多语言和多种声音选项,配备有自定义进度动画。
Logo of awesome-audio-plaza
awesome-audio-plaza
Awesome Audio Plaza汇聚全球音频领域的最新研究成果和创新项目。涵盖自然语音合成、音乐创作、自动语音识别至声音转换等多个子领域,为研究人员、学者及爱好者提供了一个内容丰富的信息平台。该平台通过整合arxiv、Hugging Face日报、Twitter、GitHub等多种资源,确保用户能够访问到前沿科研和技术动态。
Logo of dsnote
dsnote
Speech Note是一款集成多语言支持的Linux桌面与Sailfish OS平台应用,提供离线语音识别和翻译,保证了极高的隐私性,无需联网即可快速完成文字和语音的转换和翻译。适用于对隐私要求高的笔记、阅读和翻译等多场景使用。
Logo of awesome-whisper
awesome-whisper
Whisper是OpenAI开发的开源AI语音识别系统,支持多种语言和平台,具备高精度和实时处理能力,并适用于开发者和企业进行高效集成。
Logo of use-whisper
use-whisper
useWhisper 是一个为 OpenAI Whisper API 提供的 React Hook,具备语音录制、实时转录和静音消除功能。正在开发的 React Native 版本将使移动应用开发更便捷。用户可以通过 npm 或 yarn 安装,并通过丰富的配置和回调函数实现自定义转录。主要依赖项包括 recordrtc、lamejs、ffmpeg、hark 和 axios,是开发者进行语音处理和转录的理想工具。
Logo of openai-whisper
openai-whisper
本项目是基于OpenAI Whisper的自动语音识别系统webapp,使用Next.js框架开发。它能自动录音并上传至服务器进行转录和翻译,然后将结果返回前端。支持录音回放以验证输出效果,同时可通过设置消除背景噪音和调整录音暂停时间。项目仍在开发中,提供多种配置选项,适合需要快速实现语音转录功能的开发者。
Logo of conformer
conformer
Conformer模型结合卷积神经网络和Transformers,能同时捕捉音频的局部和全局依赖关系,提高语音识别精度并节省参数。本项目提供该模型的PyTorch实现,包含详细的安装和使用指南,适用于Python 3.7及更高版本。
Logo of TensorflowASR
TensorflowASR
Tensorflow 2和Conformer结构打造的端到端语音识别模型,支持在线流式和离线识别,实时率约为0.1。该项目提供VAD、降噪、TTS数据增强等功能,并支持ONNX推理优化。训练结果在Aishell-1测试集上表现优异,适用于语音识别。最新更新的Chunk Conformer结构进一步提升了长时间语音识别的准确性和效率。
Logo of Whisper-Finetune
Whisper-Finetune
本项目使用Lora技术微调了OpenAI的Whisper语音识别模型,并支持CTranslate2和GGML加速。模型能够进行无时间戳、有时间戳及无语音数据训练,并支持中文和98种其他语言的语音转文本及翻译。开源了多个适用于不同需求的模型,支持Windows、Android和服务器部署。提供详细的安装教程和使用说明,以及AIShell和WenetSpeech数据的评估和推理速度测试表,方便用户快速上手。
Logo of vosk-api
vosk-api
Vosk是一款离线开源语音识别工具包,支持20多种语言和方言。其模型体积小(仅50MB),但能提供连续的大词汇量转录、零延迟响应和流媒体API。支持Python、Java、Node.JS、C#、C++、Rust、Go等多种编程语言。适用于聊天机器人、智能家居设备、虚拟助手,也能为电影创建字幕、为讲座和采访生成转录。Vosk从Raspberry Pi等小型设备到大型集群均可扩展。访问Vosk官网获取安装指南、示例和文档。
Logo of NeMo
NeMo
NeMo框架是NVIDIA开发的一款云原生生成式AI框架,专为研究人员和使用PyTorch的开发者设计,支持大型语言模型、多模态模型、自动语音识别等多个领域。该框架能够利用现有代码和预训练的模型检查点,帮助用户高效创建和定制新的生成式AI模型。通过广泛的教程和文档,用户可以轻松开始使用NeMo框架,无论是在任何云端还是本地环境中。
Logo of 场辞
场辞
场辞是一款集成先进语音识别技术的视频字幕软件,能在数分钟内自动完成高达97.5%准确率的字幕生成,支持多种文件格式。其一键添加字幕、实时预览功能及多轨编辑,使其成为自媒体、教育及短视频制作的理想选择,有效提升制作流程的效率和质量。
Logo of silero-models
silero-models
silero-models展示高质量预训练语音识别与合成模型,提供简化的企业级语音技术解决方案,性能匹敌谷歌STT。模型即用、支持多语言、语音合成自然,将企业和开发者的部署流程简化至极致。
Logo of mrcp-plugin-with-freeswitch
mrcp-plugin-with-freeswitch
mrcp-plugin-with-freeswitch 项目利用FreeSWITCH实现实时语音处理,结合UniMRCP Server集成讯飞开放平台(xfyun)插件进行语音识别和合成。项目包括完善的安装和配置指南,便于快速构建端到端的语音呼叫中心,支持多种操作系统,包括MacOS和Linux平台。
Logo of espnet
espnet
ESPnet是一个端到端语音处理模块,封装了多个领域的语音处理任务,如语音识别、文本到语音、语音翻译、语音增强和说话人分割等。该平台基于Pytorch开发,采用符合Kaldi风格的数据处理方法,提供针对各类语音处理实验的完整解决方案。ESPnet支持多语言处理,并能够调整自身以适应不同的语言和环境。
Logo of Maix-Speech
Maix-Speech
Maix-Speech是一款面向嵌入式设备的AI语音库,涵盖语音识别、对话系统和文本到语音转换等多种功能,目前支持中文。此项目遵循Apache 2.0许可证。
Logo of whisper.cpp
whisper.cpp
whisper.cpp是基于OpenAI Whisper的C/C++自动语音识别(ASR)模型实施,针对Apple Silicon经过优化,并支持多平台部署。该项目以极低的内存消耗和CPU/GPU推理能力,覆盖Mac OS、iOS、Android等主流平台,提供灵活的API与多样的定制模型,使开发者能够轻松地融合语音功能。
Logo of openai-whisper-api
openai-whisper-api
OpenAI Whisper API是一种开源AI模型微服务,采用OpenAI先进的语音识别技术,支持多语言识别、语言识别和语音翻译。该服务基于Node.js、Bun.sh和Typescript构建,可在无依赖的Docker环境中运行,适用于语音和语言相关的应用。无论是转录语音消息、改进系统性能,还是探索Whisper API的功能,这都是一个强大的工具,且采用MIT许可证,开发者可以轻松使用。
Logo of hack-interview
hack-interview
Hack Interview应用结合语音识别和文本生成技术,实时转录并生成面试问答,帮助用户轻松应对面试。基于OpenAI的Whisper与GPT模型,提供精准的语音识别和智能回答生成。支持各种操作系统,界面简洁友好。具备实时音频处理和跨平台兼容等功能。仅供练习和学习,不可用于欺骗面试。支持Python 3.10+和OpenAI API密钥,Mac用户需安装BlackHole进行音频录制。
Logo of sherpa-onnx
sherpa-onnx
Sherpa-onnx是一个支持多平台、多功能的语音处理开源项目,涵盖语音识别、语音合成、说话人验证、语言识别等功能,兼容安卓、iOS、Windows、macOS、Linux等系统。支持多种编程语言如C++、C、Python、Go、C#、Java、Kotlin、JavaScript、Swift和Dart,提供预构建的APK和Flutter应用,以及开源预训练模型,便于语音处理开发和部署。
Logo of dla
dla
此课程详细介绍了音频深度学习的各个方面,包括数字信号处理、语音识别、源分离、文本转语音、语音转换、语音生物识别及音频生成扩散模型。每周更新课程材料,涵盖从理论讲解到实操的全面学习。提供全面的作业和丰富的学习资源,适合深入了解音频处理技术的人士。
Logo of DeepSpeech
DeepSpeech
DeepSpeech是一个开源语音转文字引擎,基于百度的Deep Speech研究,并利用Google TensorFlow实现。提供详细的安装、使用和训练模型文档。最新版本及预训练模型可在GitHub获取,支持和贡献指南请参阅相应文件。
Logo of wav2letter
wav2letter
wav2letter++现已整合到Flashlight中,专注于端到端和在线语音识别的研究。该项目提供多种预训练模型和数据准备指南,适用于有监督和半监督学习。通过Flashlight的ASR应用实现所有功能,确保高效、准确的语音识别。
Logo of PaddleSpeech
PaddleSpeech
PaddleSpeech是基于PaddlePaddle平台的开源语音处理工具集,覆盖自动语音识别、文本转语音合成、说话人确认及声音分类等多项功能,提供易于使用、高效和灵活的模型,支持各类语音相关任务。工具集包含全流程服务,支持流式识别与合成系统,为研究和工业应用提供强大支持。
Logo of FunClip
FunClip
FunClip 是一个开源的自动化视频剪辑工具,使用阿里巴巴 TONGYI 语音实验室的 FunASR 模型系列进行语音识别。用户可以选择识别结果中的文本片段或发言人,一键获取对应的视频片段。支持 LLM AI 剪辑、多段剪辑和字幕生成等功能,操作简单,提供 Gradio 交互界面和命令行使用方式,可部署在服务器上,通过浏览器访问。现已支持中英文音频文件剪辑,提供智能剪辑和热词定制功能。
Logo of speech-recognition-uk
speech-recognition-uk
本项目集成了乌克兰语的自动语音识别和语音合成的最新进展与数据集。详细涵盖了多种语音模型如wav2vec2和Citrinet,同时提供模型评估和测试结果。加入我们的Discord或Telegram社区,共同推动乌克兰语语音技术的前沿发展。
Logo of StreamSpeech
StreamSpeech
StreamSpeech通过一个整合的模型,在线和实时翻译中展现行业领先水平,支持多达8种包括语音识别和语音转换任务。提供Web GUI演示,允许用户在浏览器中直接体验。探索StreamSpeech的功能和实例。
Logo of LangHelper
LangHelper
LangHelper提供多种口音的AI语音对话、双语识别技术,以及针对IELTS/TOEFL考试的发音评分服务。用户可以模拟与名人对话或加载个性化TTS模型进行特定发音训练,同时支持espeak-ng等开源语音库。支持免安装使用,简化语音实践与评估流程。
Logo of TTS-Voice-Wizard
TTS-Voice-Wizard
TTS-Voice-Wizard是一款多功能语音互动工具,可用于VRChat和其他平台。它支持将语音转化为文本,文本再转化为语音,支持50多种语言的实时翻译和超过100种的语音选项。工具还能显示Spotify或浏览器的播放音乐和VR设备电池状况,同时支持以语音命令控制VRChat头像。
Logo of flutter_gpt_box
flutter_gpt_box
flutter_gpt_box是一款用于访问OpenAI API的第三方GPT客户端,支持文本、图片和音频聊天,查看HTTP链接内容和多语言本地化。提供恢复ChatGPT Next Web备份和OpenAI导出文件功能,支持通过WebDAV和iCloud进行多平台同步,并支持桌面和移动设备的使用。目前该应用仍在开发中,建议避免在生产环境中使用。
Logo of RuntimeSpeechRecognizer
RuntimeSpeechRecognizer
RuntimeSpeechRecognizer是一个高效的语音识别项目,基于OpenAI的Whisper技术,提供快速且准确的识别。支持英语和多语言(多达100种语言),提供从75 MB到2.9 GB多种模型尺寸。自动下载语言模型,支持将识别的语音翻译成英语,特性可定制,无需静态库或外部依赖,兼容多个平台(Windows、Mac、Linux、Android、iOS等)。
Logo of wenet
wenet
WeNet项目提供生产就绪的全栈语音识别方案,强调精准与轻量化。项目在多个公共语音数据集上实现了最先进效果。WeNet易于安装和使用,支持Python编程和命令行操作,并兼容多种硬件,包括Ascend NPU。通过借鉴ESPnet和Kaldi等项目,WeNet提供高效的模型训练和部署方式。用户可在GitHub或微信讨论群中参与交流,获取技术支持和项目信息更新。
Logo of pyvideotrans
pyvideotrans
这款工具支持将视频内容翻译为多种指定语言,并自动生成字幕和配音。集成了faster-whisper、openai-whisper、GoogleSpeech等多个语音识别、翻译和文本合成模块,支持中文、英语、韩语、日语等20多种语言。用户可以进行视频翻译、字幕生成和批量处理,并可以选择保留背景音乐,适用于Windows、MacOS、Linux等多种平台。
Logo of whisper-youtube
whisper-youtube
Whisper模型用于YouTube视频的多语言转录和语言识别。教程涵盖从Google Colab安装库到在Google Drive中保存转录文件的全过程,并提供GPU优化建议,适合需要高效、精准进行视频转录的用户。
Logo of whisper
whisper
Whisper是一个通用语音识别模型,支持多种语言处理任务,如语音翻译和语言识别。该模型基于大规模多样化音频数据集进行训练,利用Transformer技术实现高效的序列到序列学习。用户可以通过简单的命令或Python代码实现快速准确的语音识别与翻译,是一个适用于多种应用场景的强大工具。支持多个模型大小和语言选项,用户可根据需求选择合适的模型。
Logo of 飞书妙记
飞书妙记
飞书妙记提供智能会议纪要与语音转文字服务,支持视频音频自动转录和多语言翻译,有效优化协作流程,提升信息管理效率。
Logo of AudioGPT
AudioGPT
AudioGPT 是一个多功能音频生成与理解平台,具备语音合成、语音识别、语音分离、风格迁移、声音检测、声音提取、文本到音频转换等功能,还支持音乐生成与虚拟人对话。集成了 FastSpeech、whisper、GeneFace 等多个领先的基础模型,AudioGPT 为开发者提供强大的开源工具和预训练模型,支持多种音频相关任务,不断扩展其功能和应用场景。此平台适合音频处理、自然语言处理及多模态研究的需求。
Logo of make-a-smart-speaker
make-a-smart-speaker
本文提供如何从头开始制作智能音箱的详细指南和优质资源。文章覆盖音频处理、关键词检测、语言理解至文本转语音的全面步骤,介绍开源项目如Mycroft、Snips以及Amazon Alexa和Google Assistant等硬件SDK。提供硬件套件链接,帮助开发者和技术爱好者构建并优化智能音箱项目。
Logo of parrots
parrots
Parrots工具套件整合了先进的多语言语音识别与语音合成技术,提供中文、英文及日文支持。其功能强大的ASR与TTS模型旨在为开发者打造快速、高效的语音交互体验。安装简便,适合处理多种语言的语音数据。
Logo of awesome-speech-recognition-speech-synthesis-papers
awesome-speech-recognition-speech-synthesis-papers
本项目汇聚了语音识别与语音合成领域的重要研究论文,涵盖多个子领域,包括自动语音识别(ASR)、说话人验证、声音转换和语音合成(TTS)等。提供广泛的研究成果和方法论参考,这些资源可以帮助研究人员和开发人员探索从文本到音频的转换技术和相关音乐建模应用。该资源适用于学术研究和实际开发中的技术革新和行业推动。
Logo of klaam
klaam
klaam项目通过采用尖端技术模型如wave2vec和fastspeech2,提供全面的阿拉伯语语音识别、分类和文字转语音服务。支持多种方言和数据集,便于培训、预测与快速部署。
Logo of phrame
phrame
Phrame通过监听周围对话,生成独特的视觉艺术作品。它的功能包括从对话生成AI艺术品、实时更新、远程控制和支持多种生成AI图像服务。用户界面友好,适用于桌面和移动设备,并通过WebSockets实现实时更新和远程控制。用户能通过语音命令管理画廊,浏览、收藏和删除图像,并访问和管理日志。隐私保护严格,所有转录内容仅在本地设备处理和保存。
Logo of whisper_android
whisper_android
介绍在Android应用中如何集成Whisper和Recorder类,进行高效的音频录制和语音识别。指南提供了Whisper模型的初始化、配置和转录操作的代码片段,以及Recorder的配置和录音功能。集成过程中需注意权限、错误处理和文件路径管理,以确保应用的平稳运行。使用Whisper ASR提升应用的语音识别功能,为用户提供流畅的体验。
Logo of ASR_Theory
ASR_Theory
此页面汇总了语音识别的相关理论与实践内容,包括使用Kaldi工具构建的GMM-HMM和NN-HMM模型的PPT,多个深度学习研究论文,以及INTERSPEECH 2018会议上的谷歌PPT。提供以音节、字及音素为建模单元的语音识别模型的开源项目链接。
Logo of speech_dataset
speech_dataset
此页面总结了多语言语音数据集,包括中文、英文、日语、韩语、俄语等。涵盖了语音识别、语音合成、说话人识别和分离等应用领域,详细描述了每个数据集的时长、下载地址及其具体用途,帮助用户快速找到符合科研或项目需求的语音数据。
Logo of pykaldi
pykaldi
PyKaldi是一款Python脚本工具,为Kaldi语音识别工具包和OpenFst库提供了易用的Python包装器。它适用于语音识别研究人员和专业人士,可在Python中调用低级Kaldi函数、操作对象,并实现新工具。PyKaldi是对Kaldi的有力补充,其高层次的应用模块如ASR、对齐和分段,使大部分Python程序员都能上手。如果需要在Python中操控Kaldi和OpenFst对象,PyKaldi是一个理想的选择。