#语音识别
openai-whisper - Next.js实现的自动语音识别,支持实时转录和录音回放
openai-whisperNext.js语音识别自动化转录实时转录Github开源项目
本项目是基于OpenAI Whisper的自动语音识别系统webapp,使用Next.js框架开发。它能自动录音并上传至服务器进行转录和翻译,然后将结果返回前端。支持录音回放以验证输出效果,同时可通过设置消除背景噪音和调整录音暂停时间。项目仍在开发中,提供多种配置选项,适合需要快速实现语音转录功能的开发者。
hack-interview - 利用AI技术实时生成面试问答,提升面试效率
Hack Interview生成式AI语音识别OpenAI实时响应生成Github开源项目
Hack Interview应用结合语音识别和文本生成技术,实时转录并生成面试问答,帮助用户轻松应对面试。基于OpenAI的Whisper与GPT模型,提供精准的语音识别和智能回答生成。支持各种操作系统,界面简洁友好。具备实时音频处理和跨平台兼容等功能。仅供练习和学习,不可用于欺骗面试。支持Python 3.10+和OpenAI API密钥,Mac用户需安装BlackHole进行音频录制。
wenet - 轻量精准的全栈语音识别解决方案
WeNet语音识别开源工具包安装指南文档Github开源项目
WeNet项目提供生产就绪的全栈语音识别方案,强调精准与轻量化。项目在多个公共语音数据集上实现了最先进效果。WeNet易于安装和使用,支持Python编程和命令行操作,并兼容多种硬件,包括Ascend NPU。通过借鉴ESPnet和Kaldi等项目,WeNet提供高效的模型训练和部署方式。用户可在GitHub或微信讨论群中参与交流,获取技术支持和项目信息更新。
ASR_Theory - 语音识别与深度学习的理论与实践总结
元语音语音识别kaldiGMM-HMMNN-HMMGithub开源项目
此页面汇总了语音识别的相关理论与实践内容,包括使用Kaldi工具构建的GMM-HMM和NN-HMM模型的PPT,多个深度学习研究论文,以及INTERSPEECH 2018会议上的谷歌PPT。提供以音节、字及音素为建模单元的语音识别模型的开源项目链接。
conformer - 结合卷积神经网络和Transformers的语音识别模型
ConformerPyTorch卷积神经网络Transformer语音识别Github开源项目
Conformer模型结合卷积神经网络和Transformers,能同时捕捉音频的局部和全局依赖关系,提高语音识别精度并节省参数。本项目提供该模型的PyTorch实现,包含详细的安装和使用指南,适用于Python 3.7及更高版本。
sherpa-onnx - 多平台本地运行的语音处理开源项目
Sherpa语音识别语音合成语言识别音频标记Github开源项目
Sherpa-onnx是一个支持多平台、多功能的语音处理开源项目,涵盖语音识别、语音合成、说话人验证、语言识别等功能,兼容安卓、iOS、Windows、macOS、Linux等系统。支持多种编程语言如C++、C、Python、Go、C#、Java、Kotlin、JavaScript、Swift和Dart,提供预构建的APK和Flutter应用,以及开源预训练模型,便于语音处理开发和部署。
pyvideotrans - 视频翻译与多语言配音解决方案
pyvideotrans视频翻译配音工具语音识别翻译模型Github开源项目
这款工具支持将视频内容翻译为多种指定语言,并自动生成字幕和配音。集成了faster-whisper、openai-whisper、GoogleSpeech等多个语音识别、翻译和文本合成模块,支持中文、英语、韩语、日语等20多种语言。用户可以进行视频翻译、字幕生成和批量处理,并可以选择保留背景音乐,适用于Windows、MacOS、Linux等多种平台。
speech_dataset - 多语言语音识别与合成数据集详细介绍及应用
语音识别语音合成数据集开源多人语音识别Github开源项目
此页面总结了多语言语音数据集,包括中文、英文、日语、韩语、俄语等。涵盖了语音识别、语音合成、说话人识别和分离等应用领域,详细描述了每个数据集的时长、下载地址及其具体用途,帮助用户快速找到符合科研或项目需求的语音数据。
TensorflowASR - Tensorflow 2和Conformer结合的端到端语音识别解决方案
TensorflowASR语音识别ConformerCTCONNXGithub开源项目
Tensorflow 2和Conformer结构打造的端到端语音识别模型,支持在线流式和离线识别,实时率约为0.1。该项目提供VAD、降噪、TTS数据增强等功能,并支持ONNX推理优化。训练结果在Aishell-1测试集上表现优异,适用于语音识别。最新更新的Chunk Conformer结构进一步提升了长时间语音识别的准确性和效率。
dla - 深度学习音频处理综合课程
Deep Learning for AudioHSE语音识别声源分离语音生成Github开源项目
此课程详细介绍了音频深度学习的各个方面,包括数字信号处理、语音识别、源分离、文本转语音、语音转换、语音生物识别及音频生成扩散模型。每周更新课程材料,涵盖从理论讲解到实操的全面学习。提供全面的作业和丰富的学习资源,适合深入了解音频处理技术的人士。
whisper-youtube - Whisper模型用于YouTube视频的多语言转录和语言识别
Whisper语音识别YouTube视频转录OpenAIGoogle ColabGithub开源项目
Whisper模型用于YouTube视频的多语言转录和语言识别。教程涵盖从Google Colab安装库到在Google Drive中保存转录文件的全过程,并提供GPU优化建议,适合需要高效、精准进行视频转录的用户。
pykaldi - Python 语音识别工具
PyKaldiKaldi语音识别PythonOpenFstGithub开源项目
PyKaldi是一款Python脚本工具,为Kaldi语音识别工具包和OpenFst库提供了易用的Python包装器。它适用于语音识别研究人员和专业人士,可在Python中调用低级Kaldi函数、操作对象,并实现新工具。PyKaldi是对Kaldi的有力补充,其高层次的应用模块如ASR、对齐和分段,使大部分Python程序员都能上手。如果需要在Python中操控Kaldi和OpenFst对象,PyKaldi是一个理想的选择。
Whisper-Finetune - 微调与加速Whisper模型
Whisper微调语音识别加速推理OpenAIGithub开源项目
本项目使用Lora技术微调了OpenAI的Whisper语音识别模型,并支持CTranslate2和GGML加速。模型能够进行无时间戳、有时间戳及无语音数据训练,并支持中文和98种其他语言的语音转文本及翻译。开源了多个适用于不同需求的模型,支持Windows、Android和服务器部署。提供详细的安装教程和使用说明,以及AIShell和WenetSpeech数据的评估和推理速度测试表,方便用户快速上手。
agents - 实时语音代理构建框架,支持大规模并发处理
LiveKit实时框架语音识别插件开发者预览Github开源项目
Agent Framework用于创建实时、可编程的服务器端参与者,能够构建具备视觉、听觉和理解能力的多模态语音代理。框架与LiveKit服务器无缝集成,免除额外排队基础设施需求,易于本地代码扩展到支持大规模并发会话。目前,SDK处于开发预览阶段,欢迎在LiveKit Community Slack上提供反馈和贡献。
tensorflow-speech-recognition - 开源TensorFlow中的语音识别示例
Tensorflow语音识别深度学习WhisperDeepSpeechGithub开源项目
使用谷歌的TensorFlow框架进行语音识别,最初目标是为Linux系统创建独立的语音识别模型。尽管该项目现主要用于教学,开发者展示了使用开源数据和强大模型实现高效语音识别的潜力。推荐查看更新项目如Whisper和Mozilla的DeepSpeech,这两个项目在错误率方面的表现出色。该项目包含示例代码、依赖安装指导及功能扩展,如GPU上的WarpCTC和P2P学习模块。
ASRT_SpeechRecognition - 中文语音识别系统,支持多平台和多种API接口
ASRT语音识别TensorFlowPython深度学习Github开源项目
ASRT是一款基于深度学习的中文语音识别系统,采用TensorFlow框架实现。支持数据集包括Thchs30、ST-CMDS、Primewords、aishell-1等,通过DCNN+CTC模型和最大熵隐马尔可夫模型实现汉字拼音识别。该系统跨平台兼容,提供多种API接口和SDK。适用于Linux和Windows系统,最低硬件要求为4核CPU、16GB RAM和NVIDIA GPU。提供详细的安装、训练、部署文档及Demo,适合开发者和研究人员使用。
whisper-timestamped - 多语言语音识别工具,支持单词时间戳和置信度评分
whisper-timestamped语音识别OpenAI时间戳信心评分Github开源项目
whisper-timestamped 是一个增强型多语言语音识别工具,基于 OpenAI 的 Whisper 模型,通过动态时间规整(DTW)技术预测单词时间戳,并附带置信度评分。该扩展兼容所有 Whisper 版本,优化内存使用,适用于处理长音频文件。此外,还支持在运行 Whisper 模型前进行语音活动检测(VAD),有效降低训练数据中的误差。whisper-timestamped 可提高识别准确度,尤其适用于包含语音卡顿或填充词的情景。
whisper-diarization - 基于OpenAI Whisper的音频转录和说话人分离工具
Speaker DiarizationOpenAI Whisper语音识别说话人分类音频处理Github开源项目
whisper-diarization项目整合了OpenAI Whisper的语音识别技术和先进的说话人分离方法。该工具首先进行人声提取,然后利用Whisper生成转录文本,并通过WhisperX优化时间戳。结合MarbleNet和TitaNet等技术,它能够准确识别多个说话人,最终输出包含说话人标识的精确转录结果。这一开源解决方案特别适合需要处理多人对话音频的场景,为音频转录和分析提供了强大支持。
awesome-large-audio-models - 音频AI模型前沿进展与资源汇总
大型音频模型语音识别语音合成音乐生成跨模态AIGithub开源项目
本项目汇总了音频AI领域的精选资源,涵盖语音识别、合成、翻译等多个方向的前沿进展。定期更新最新论文和开源实现,为研究者和开发者提供全面了解音频AI发展的平台。内容包括主流大型音频模型、各应用领域技术及大规模数据集,是音频AI研究的重要参考资料。
icefall - 多语种语音识别开源工具箱
icefall语音识别k2-fsaZipformerTransducerGithub开源项目
icefall是基于k2-fsa和lhotse的开源语音识别工具箱,支持多种数据集和模型架构。它提供预训练模型和详细文档,便于快速部署和实验。icefall在LibriSpeech等基准数据集上表现出色,适合开发高性能的语音识别系统。
speech-dataset-generator - 多语言语音数据集生成与处理工具
Speech Dataset Generator音频处理数据集生成语音识别多语言支持Github开源项目
speech-dataset-generator是一款开源的多语言语音数据集处理工具。它支持从多种来源获取音频,包括YouTube、LibriVox和TED Talks等。该工具提供音频转录、质量增强、静音移除、性别识别、多说话者检测等功能,还能计算语速指标。通过集成多种音频增强器,speech-dataset-generator为文本转语音和语音转文本模型的训练提供了全面的数据准备解决方案。
sherpa - 基于PyTorch的开源E2E语音识别框架 支持C++和Python
语音识别深度学习开源框架PyTorch端到端模型Github开源项目
sherpa是基于PyTorch的开源E2E语音识别框架,专注于转录器和CTC模型。提供C++和Python API,适用于部署预训练模型进行语音转写。此外,sherpa-onnx和sherpa-ncnn等相关项目支持iOS、Android和嵌入式系统,无需依赖PyTorch。用户可通过浏览器直接体验sherpa的语音识别功能。
ReazonSpeech - 多模型语音识别开源工具包 支持日语音频分析
ReazonSpeech语音识别深度学习开源项目自然语言处理Github
ReazonSpeech是一个开源语音识别项目,整合了多种高性能模型。它提供基于NeMo的FastConformer-RNNT模型、基于Kaldi的K2模型和基于ESPnet的Conformer-Transducer模型。此外,该项目还包含专用于日语电视节目分析的工具,有助于构建日语音频语料库。ReazonSpeech支持多个深度学习框架,为开发者提供了多样化的选择。
k2 - 高性能自动微分FSA/FST算法库 支持语音识别
k2有限状态自动机语音识别PyTorchCUDAGithub开源项目
k2是一个高性能的有限状态自动机(FSA)和有限状态转换器(FST)算法库,旨在与PyTorch和TensorFlow等自动微分工具包无缝集成。该库主要应用于语音识别领域,支持交叉熵、CTC和MMI等多种训练目标的融合,并能优化多阶段解码系统。k2基于C++和CUDA实现,提供高效并行计算,并与PyTorch深度集成,为语音识别技术的进一步发展提供了灵活而强大的框架。
sherpa-ncnn - 轻量级多平台实时语音识别工具
语音识别sherpa-ncnn实时多平台AndroidGithub开源项目
sherpa-ncnn 是一个开源的实时语音识别项目,支持 Linux、macOS、Windows 及嵌入式设备。基于 ncnn 框架开发,无需依赖 PyTorch,具有轻量化和高效性特点。项目提供详细文档、演示视频和 Android 应用开发指南。支持多语言识别和背景噪音处理,适用于各种语音识别应用场景。
openWakeWord - 高效易用的开源语音唤醒词识别库
openWakeWord唤醒词语音识别开源库模型训练Github开源项目
openWakeWord是一个开源语音唤醒词库,用于开发语音交互应用和界面。它提供预训练模型,可识别常见词语,适应真实环境。该项目旨在平衡速度、准确性和易用性,采用简单架构,支持高效训练新模型,无需大量手动数据采集。
LocalAIVoiceChat - 开源本地AI语音聊天项目 支持自定义人格和声音
AI语音聊天实时语音交互本地AI模型语音合成语音识别Github开源项目
LocalAIVoiceChat是一个开源的本地AI语音聊天项目,集成Zephyr 7B语言模型与实时语音转文本和文本转语音技术。项目支持完全本地运行,可自定义AI人格和声音,提供实时语音交互功能。适用于具备8GB VRAM的GPU环境,为AI爱好者和开发者提供了一个实验性的本地实时聊天机器人平台。
WeTextProcessing - 中英文文本标准化和反标准化处理工具包
WeTextProcessing文本归一化逆文本归一化自然语言处理语音识别Github开源项目
WeTextProcessing是一个开源的文本处理工具包,主要用于中英文文本的标准化和反标准化。它提供API接口,允许自定义规则,并支持C++运行时部署。该工具适用于语音识别后处理、自然语言处理等需要处理大量文本数据的场景。WeTextProcessing具有高性能和灵活配置的特点,可满足各种文本处理需求。
espnet_onnx - 轻量级语音识别和合成库 基于ONNX格式优化
espnet_onnxONNX语音识别语音合成模型导出Github开源项目
espnet_onnx是一个将ESPnet模型导出为ONNX格式的实用库,支持语音识别和语音合成任务。该库提供简洁的API接口,便于模型导出和推理。通过ONNX Runtime实现高效的CPU和GPU计算,并支持流式语音识别。用户可从预训练或自定义模型中轻松导出,并进行优化和量化以提升性能。无需PyTorch依赖,适合轻量级部署。
libriheavy - 大规模语音识别数据集,50,000小时带标点和上下文
Libriheavy语音识别数据集标点符号上下文Github开源项目
Libriheavy是基于Librilight的大规模标注语音数据集,总时长达50,000小时。该数据集包含标点、大小写和上下文信息,适用于多种语音任务研究。Libriheavy提供完整版和ASR训练专用版本,支持多种数据格式。此外,项目还提供基线模型和性能排行榜,展示了在不同规模子集上的识别效果。研究人员可以通过简单步骤获取并使用这一丰富的语音识别资源。
stable-ts - Whisper语音转录时间戳优化和功能扩展工具
Whisper时间戳语音识别稳定性转录Github开源项目
stable-ts是一个开源的Whisper语音转录优化工具。它通过改进时间戳生成算法,提高了转录结果的时间精确度。该工具扩展了Whisper的功能,增加了语音分离、降噪和时间戳调整等特性。stable-ts支持多种输出格式,并提供API和命令行接口,使语音转录更加稳定和高效。
kaldi - 多平台支持的开源语音识别工具包
Kaldi语音识别开源工具包跨平台GitHubGithub开源项目
Kaldi是一款先进的开源ASR(自动语音识别)工具包,适用于UNIX、Linux等多种系统。它为语音处理研究和应用开发提供了全面的工具和资源,包括详细文档和示例系统。Kaldi支持多种平台,包括PowerPC、Android和Web Assembly,并拥有活跃的开发者社区,为语音技术的创新和应用提供了强大支持。
docker-whisperX - 优化Docker镜像的WhisperX语音识别与转录解决方案
WhisperXDockerGPU支持语音识别模型构建Github开源项目
docker-whisperX项目优化了WhisperX语音识别工具的Docker镜像构建流程。该项目实现了175个10GB大小Docker镜像的并行构建,提供多种预构建镜像和自定义选项,支持不同语言和模型。用户可通过GPU加速,获得包含逐字时间戳和说话人分离的高质量语音转文字结果。
april-asr - 高效流式语音识别库,支持离线模式
april-asr语音识别离线转录ONNXRuntimeAPIGithub开源项目
april-asr是一个轻量级离线流式语音识别库,提供C API接口并支持C#和Python绑定。该项目适用于实时字幕等应用场景,当前主要支持英语识别。april-asr基于ONNXRuntime开发,可在Linux和Windows平台上构建。项目虽仍在开发中,但已提供示例代码和模型训练指南,为开发者提供了简洁灵活的语音识别解决方案。
whisperX - 高效准确的长音频自动转录工具
WhisperX语音识别时间戳说话人分离对齐Github开源项目
WhisperX是一款基于Whisper的开源自动语音识别工具,通过强制音素对齐和语音活动批处理技术,实现了高达70倍实时的转录速度。它提供精确的单词级时间戳和说话人分离功能,适用于长音频的高效转录和分析。WhisperX在保持高转录质量的同时,显著提升了时间戳的准确性,为音频处理领域带来了新的可能。
DeepSpeech - 开源的深度学习语音识别引擎
Project DeepSpeechTensorFlow开源语音识别机器学习Github开源项目
DeepSpeech是一个开源语音转文字引擎,基于百度的Deep Speech研究,并利用Google TensorFlow实现。提供详细的安装、使用和训练模型文档。最新版本及预训练模型可在GitHub获取,支持和贡献指南请参阅相应文件。
相关文章
StreamSpeech入门学习资料 - "全能"语音识别、翻译与合成模型
2 个月前
awesome-audio-plaza学习资料汇总 - 音频AI技术论文和资源追踪项目
2 个月前
mrcp-plugin-with-freeswitch资源学习总结 - FreeSWITCH与UniMRCP Server集成讯飞语音服务入门指南
2 个月前
speech-recognition-uk学习资料汇总 - 乌克兰语语音识别与合成项目
2 个月前
TTS-Voice-Wizard 学习资料汇总 - 免费开源的语音转文字和文字转语音应用
2 个月前
awesome-speech-recognition-speech-synthesis-papers学习资料汇总 - 语音识别与合成领域顶级论文集锦
2 个月前
LangHelper入门学习资料 - 基于ChatGPT和AI模型的强大语言学习应用
2 个月前
dsnote 学习资料汇总 - 离线语音识别、文本转语音和机器翻译工具
2 个月前
Android Speech使用指南 - 简化语音识别与文字转语音
2 个月前