#语音增强

AudioGPT - 多功能音频生成与理解平台,支持语音、音乐、音效及虚拟人对话
AudioGPT语音识别音频合成语音增强音乐生成Github开源项目
AudioGPT 是一个多功能音频生成与理解平台,具备语音合成、语音识别、语音分离、风格迁移、声音检测、声音提取、文本到音频转换等功能,还支持音乐生成与虚拟人对话。集成了 FastSpeech、whisper、GeneFace 等多个领先的基础模型,AudioGPT 为开发者提供强大的开源工具和预训练模型,支持多种音频相关任务,不断扩展其功能和应用场景。此平台适合音频处理、自然语言处理及多模态研究的需求。
DeepFilterNet - 用于全频段音频(48kHz)的低复杂度语音增强框架
DeepFilterNet语音增强实时处理降噪全带宽音频Github开源项目
DeepFilterNet是一个低复杂度的全频段音频(48kHz)实时语音增强框架,支持Linux、MacOS和Windows。该项目包含用于数据加载和增强的Rust代码模块,以及Python接口和预训练模型。它还支持LADSPA插件,用于实时噪声抑制,并提供详细的安装和使用指南,适用于终端命令行、Python脚本和深度学习模型训练等多种应用场景。
resemble-enhance - 语音增强工具提升音质消除噪音
Resemble Enhance语音增强降噪AI工具音频处理Github开源项目
Resemble Enhance是一款开源的AI语音增强工具,通过去噪和增强提高语音质量。它包含去噪器和增强器两个模块,使用44.1kHz高质量语音数据训练。该工具支持命令行操作和Web演示,可轻松安装使用。此外,还提供了训练自定义模型的功能,适用于有特定需求的用户。
rnnoise - 开源深度学习实时语音降噪库
RNNoise噪音抑制神经网络语音增强机器学习Github开源项目
RNNoise是一个开源的基于循环神经网络的噪声抑制库,专注于实时全频带语音增强。它采用混合DSP和深度学习方法,支持48kHz采样率的16位PCM文件处理。该项目提供简单的命令行工具,同时允许用户使用自定义数据集进行模型训练。RNNoise还支持可加载模型,提高了系统的灵活性和适应性。
ears_dataset - 全频带语音资源推动语音处理技术进步
EARS Dataset语音数据集语音增强去混响高质量录音Github开源项目
EARS数据集提供100小时48kHz全频带语音数据,涵盖107位不同背景发言人。数据包括无回声室录音、全动态范围语音和多种情绪朗读样本。此外,还附有说话人统计和文本转录,为语音增强和去混响研究提供全面资源。
Adobe Podcast - 基于AI的专业音频处理和编辑平台
AI工具Adobe PodcastAI音频工具语音增强音频编辑播客制作
Adobe Podcast是一个AI驱动的在线音频处理平台,提供一键音频增强功能,可将普通录音提升至专业水准。平台支持浏览器内录音、编辑和增强,并通过AI分析优化录音设置。其文档式音频编辑简化了剪辑流程,同时支持高质量远程录音。平台还提供预编辑的免版税音乐和音频API服务,满足各种音频处理需求。
AudioSep - 自然语言驱动的多功能音频分离基础模型
AudioSep音频分离自然语言查询开放域声音分离语音增强Github开源项目
AudioSep是一个创新的音频分离基础模型,可通过自然语言描述执行多种音频分离任务。该模型在音频事件分离、乐器分离和语音增强等领域展现出卓越的性能和泛化能力。AudioSep支持用户通过文本描述精确分离所需音频内容,为音频处理技术开辟了新的应用方向。
metricgan-plus-voicebank - 基于MetricGAN+的开源语音增强模型实现PESQ 3.15分及STOI 93.0分
Github开源项目语音增强PyTorchMetricGANSpeechBrainHuggingfaceVoicebank模型
MetricGAN+是一个基于SpeechBrain框架开发的语音增强模型,在Voicebank-DEMAND数据集测试中达到PESQ 3.15分和STOI 93.0分。模型支持16kHz采样率音频处理,提供Python接口实现音频降噪和质量优化。项目开源,可用于语音处理和音频增强等应用场景。