#语音增强

AudioGPT学习资料汇总 - 音频AI领域的多模态系统

2 个月前
Cover of AudioGPT学习资料汇总 - 音频AI领域的多模态系统

AudioSep:用自然语言描述分离任意声音的开创性模型

3 个月前
Cover of AudioSep:用自然语言描述分离任意声音的开创性模型

EARS数据集:革新性的高质量无回声室语音数据集

3 个月前
Cover of EARS数据集:革新性的高质量无回声室语音数据集

RNNoise: 深度学习在音频降噪中的应用

3 个月前
Cover of RNNoise: 深度学习在音频降噪中的应用

DeepFilterNet: 使用深度滤波的高效全频带音频降噪框架

3 个月前
Cover of DeepFilterNet: 使用深度滤波的高效全频带音频降噪框架

AudioGPT: 理解和生成语音、音乐、声音和说话头像的多模态AI系统

3 个月前
Cover of AudioGPT: 理解和生成语音、音乐、声音和说话头像的多模态AI系统
相关项目
Project Cover

AudioGPT

AudioGPT 是一个多功能音频生成与理解平台,具备语音合成、语音识别、语音分离、风格迁移、声音检测、声音提取、文本到音频转换等功能,还支持音乐生成与虚拟人对话。集成了 FastSpeech、whisper、GeneFace 等多个领先的基础模型,AudioGPT 为开发者提供强大的开源工具和预训练模型,支持多种音频相关任务,不断扩展其功能和应用场景。此平台适合音频处理、自然语言处理及多模态研究的需求。

Project Cover

DeepFilterNet

DeepFilterNet是一个低复杂度的全频段音频(48kHz)实时语音增强框架,支持Linux、MacOS和Windows。该项目包含用于数据加载和增强的Rust代码模块,以及Python接口和预训练模型。它还支持LADSPA插件,用于实时噪声抑制,并提供详细的安装和使用指南,适用于终端命令行、Python脚本和深度学习模型训练等多种应用场景。

Project Cover

resemble-enhance

Resemble Enhance是一款开源的AI语音增强工具,通过去噪和增强提高语音质量。它包含去噪器和增强器两个模块,使用44.1kHz高质量语音数据训练。该工具支持命令行操作和Web演示,可轻松安装使用。此外,还提供了训练自定义模型的功能,适用于有特定需求的用户。

Project Cover

rnnoise

RNNoise是一个开源的基于循环神经网络的噪声抑制库,专注于实时全频带语音增强。它采用混合DSP和深度学习方法,支持48kHz采样率的16位PCM文件处理。该项目提供简单的命令行工具,同时允许用户使用自定义数据集进行模型训练。RNNoise还支持可加载模型,提高了系统的灵活性和适应性。

Project Cover

ears_dataset

EARS数据集提供100小时48kHz全频带语音数据,涵盖107位不同背景发言人。数据包括无回声室录音、全动态范围语音和多种情绪朗读样本。此外,还附有说话人统计和文本转录,为语音增强和去混响研究提供全面资源。

Project Cover

Adobe Podcast

Adobe Podcast是一个AI驱动的在线音频处理平台,提供一键音频增强功能,可将普通录音提升至专业水准。平台支持浏览器内录音、编辑和增强,并通过AI分析优化录音设置。其文档式音频编辑简化了剪辑流程,同时支持高质量远程录音。平台还提供预编辑的免版税音乐和音频API服务,满足各种音频处理需求。

Project Cover

AudioSep

AudioSep是一个创新的音频分离基础模型,可通过自然语言描述执行多种音频分离任务。该模型在音频事件分离、乐器分离和语音增强等领域展现出卓越的性能和泛化能力。AudioSep支持用户通过文本描述精确分离所需音频内容,为音频处理技术开辟了新的应用方向。

Project Cover

metricgan-plus-voicebank

MetricGAN+是一个基于SpeechBrain框架开发的语音增强模型,在Voicebank-DEMAND数据集测试中达到PESQ 3.15分和STOI 93.0分。模型支持16kHz采样率音频处理,提供Python接口实现音频降噪和质量优化。项目开源,可用于语音处理和音频增强等应用场景。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号