AudioSep：用自然语言描述分离任意声音的开创性模型

AudioSep

AudioSep:用自然语言描述分离任意声音

AudioSep是一个革命性的开放域声音分离基础模型,它可以通过自然语言描述来分离混合音频中的目标声音。这个项目由Audio-AGI团队开发,旨在解决现有语言查询音频源分离(LASS)模型的局限性,为音频处理领域带来新的突破。

项目背景与意义

传统的音频源分离方法通常局限于特定的音源类型,如音乐或语音。而AudioSep的目标是实现更加通用和灵活的声音分离。它允许用户通过自然语言描述来指定想要分离的目标声音,这种方式比传统的基于标签或预定义类别的方法更加直观和灵活。

AudioSep的核心优势在于:

开放域能力:可以处理各种类型的声音,不局限于特定领域。
零样本学习:能够泛化到训练中未见过的新声音类型。
自然语言接口:用户可以用自由文本描述目标声音,操作简单直观。

这些特性使得AudioSep在音频编辑、内容创作、声音分析等多个领域都有广阔的应用前景。

技术原理

AudioSep的架构主要包含两个关键组件:文本编码器和分离模型。

文本编码器:使用CLIP或CLAP模型的文本编码器来提取自然语言查询的文本嵌入。这使得模型能够理解各种描述声音的文本表述。
分离模型:采用基于频域的ResUNet结构作为声音分离的主干网络。它首先对输入的混合音频进行短时傅里叶变换(STFT),然后通过多个编码器和解码器块处理幅度谱,最终生成分离的目标声音。

模型训练采用了多模态对比学习的方法,利用了大规模的音频-文本配对数据集。这使得AudioSep能够建立声音与语言描述之间的语义联系,从而实现基于文本查询的声音分离。

性能评估

研究团队在多个公开数据集上对AudioSep进行了全面的评估,包括AudioSet、VGGSound、AudioCaps等。结果表明,AudioSep在各种音频分离任务中都展现出优秀的性能:

在音乐乐器分离任务中,AudioSep的平均SDRi(信号失真比改善)达到10.508 dB。
在音频事件分离任务中,如VGGSound数据集上的表现为SDRi 9.144 dB。
在语音增强任务上也取得了不错的效果。

更令人印象深刻的是,AudioSep在未见过的数据集上也表现出色,展示了强大的零样本泛化能力。这意味着它可以应用于各种新的音频分离场景,而无需额外的微调。

AudioSep performance

应用示例

AudioSep的应用场景非常广泛,以下是一些潜在的用例:

音频编辑:专业音频制作人可以更精确地分离和编辑特定声音元素。
语音增强:在嘈杂环境中提取清晰的人声。
音乐重混:分离音乐中的特定乐器轨道。
环境声音分析:从复杂的声音场景中识别和提取特定的环境声音。
辅助听力:帮助听力障碍者增强特定的声音信号。

使用方法

AudioSep提供了简单易用的接口,使用者只需几行代码就可以实现声音分离:

from pipeline import build_audiosep, inference
import torch

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

model = build_audiosep(
      config_yaml='config/audiosep_base.yaml', 
      checkpoint_path='checkpoint/audiosep_base_4M_steps.ckpt', 
      device=device)

audio_file = 'path_to_audio_file'
text = 'textual_description'
output_file='separated_audio.wav'

# AudioSep processes the audio at 32 kHz sampling rate  
inference(model, audio_file, text, output_file, device)

用户只需提供输入音频文件路径、描述目标声音的文本,以及输出文件路径,就可以得到分离后的音频。