#语音增强

AudioGPT学习资料汇总 - 音频AI领域的多模态系统

2 个月前

AudioGPT 语音识别音频合成语音增强音乐生成 Github 开源项目

2 个月前

AudioSep：用自然语言描述分离任意声音的开创性模型

3 个月前

AudioSep 音频分离自然语言查询开放域声音分离语音增强 Github 开源项目

3 个月前

EARS数据集:革新性的高质量无回声室语音数据集

3 个月前

EARS Dataset 语音数据集语音增强去混响高质量录音 Github 开源项目

3 个月前

RNNoise: 深度学习在音频降噪中的应用

3 个月前

RNNoise 噪音抑制神经网络语音增强机器学习 Github 开源项目

3 个月前

DeepFilterNet: 使用深度滤波的高效全频带音频降噪框架

3 个月前

DeepFilterNet 语音增强实时处理降噪全带宽音频 Github 开源项目

3 个月前

AudioGPT: 理解和生成语音、音乐、声音和说话头像的多模态AI系统

3 个月前

AudioGPT 语音识别音频合成语音增强音乐生成 Github 开源项目

3 个月前

相关项目

AudioGPT

AudioGPT 是一个多功能音频生成与理解平台，具备语音合成、语音识别、语音分离、风格迁移、声音检测、声音提取、文本到音频转换等功能，还支持音乐生成与虚拟人对话。集成了 FastSpeech、whisper、GeneFace 等多个领先的基础模型，AudioGPT 为开发者提供强大的开源工具和预训练模型，支持多种音频相关任务，不断扩展其功能和应用场景。此平台适合音频处理、自然语言处理及多模态研究的需求。

DeepFilterNet

DeepFilterNet是一个低复杂度的全频段音频（48kHz）实时语音增强框架，支持Linux、MacOS和Windows。该项目包含用于数据加载和增强的Rust代码模块，以及Python接口和预训练模型。它还支持LADSPA插件，用于实时噪声抑制，并提供详细的安装和使用指南，适用于终端命令行、Python脚本和深度学习模型训练等多种应用场景。

resemble-enhance

Resemble Enhance是一款开源的AI语音增强工具，通过去噪和增强提高语音质量。它包含去噪器和增强器两个模块，使用44.1kHz高质量语音数据训练。该工具支持命令行操作和Web演示，可轻松安装使用。此外，还提供了训练自定义模型的功能，适用于有特定需求的用户。

rnnoise

RNNoise是一个开源的基于循环神经网络的噪声抑制库，专注于实时全频带语音增强。它采用混合DSP和深度学习方法，支持48kHz采样率的16位PCM文件处理。该项目提供简单的命令行工具，同时允许用户使用自定义数据集进行模型训练。RNNoise还支持可加载模型，提高了系统的灵活性和适应性。

ears_dataset

EARS数据集提供100小时48kHz全频带语音数据，涵盖107位不同背景发言人。数据包括无回声室录音、全动态范围语音和多种情绪朗读样本。此外，还附有说话人统计和文本转录，为语音增强和去混响研究提供全面资源。

Adobe Podcast

Adobe Podcast是一个AI驱动的在线音频处理平台，提供一键音频增强功能，可将普通录音提升至专业水准。平台支持浏览器内录音、编辑和增强，并通过AI分析优化录音设置。其文档式音频编辑简化了剪辑流程，同时支持高质量远程录音。平台还提供预编辑的免版税音乐和音频API服务，满足各种音频处理需求。

AudioSep

AudioSep是一个创新的音频分离基础模型，可通过自然语言描述执行多种音频分离任务。该模型在音频事件分离、乐器分离和语音增强等领域展现出卓越的性能和泛化能力。AudioSep支持用户通过文本描述精确分离所需音频内容，为音频处理技术开辟了新的应用方向。

metricgan-plus-voicebank

MetricGAN+是一个基于SpeechBrain框架开发的语音增强模型，在Voicebank-DEMAND数据集测试中达到PESQ 3.15分和STOI 93.0分。模型支持16kHz采样率音频处理，提供Python接口实现音频降噪和质量优化。项目开源，可用于语音处理和音频增强等应用场景。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com