Logo

#语音增强

Logo of AudioGPT
AudioGPT
AudioGPT 是一个多功能音频生成与理解平台,具备语音合成、语音识别、语音分离、风格迁移、声音检测、声音提取、文本到音频转换等功能,还支持音乐生成与虚拟人对话。集成了 FastSpeech、whisper、GeneFace 等多个领先的基础模型,AudioGPT 为开发者提供强大的开源工具和预训练模型,支持多种音频相关任务,不断扩展其功能和应用场景。此平台适合音频处理、自然语言处理及多模态研究的需求。
Logo of ears_dataset
ears_dataset
EARS数据集提供100小时48kHz全频带语音数据,涵盖107位不同背景发言人。数据包括无回声室录音、全动态范围语音和多种情绪朗读样本。此外,还附有说话人统计和文本转录,为语音增强和去混响研究提供全面资源。
Logo of DeepFilterNet
DeepFilterNet
DeepFilterNet是一个低复杂度的全频段音频(48kHz)实时语音增强框架,支持Linux、MacOS和Windows。该项目包含用于数据加载和增强的Rust代码模块,以及Python接口和预训练模型。它还支持LADSPA插件,用于实时噪声抑制,并提供详细的安装和使用指南,适用于终端命令行、Python脚本和深度学习模型训练等多种应用场景。
Logo of Adobe Podcast
Adobe Podcast
Adobe Podcast是一个AI驱动的在线音频处理平台,提供一键音频增强功能,可将普通录音提升至专业水准。平台支持浏览器内录音、编辑和增强,并通过AI分析优化录音设置。其文档式音频编辑简化了剪辑流程,同时支持高质量远程录音。平台还提供预编辑的免版税音乐和音频API服务,满足各种音频处理需求。