Project Icon

dasp-pytorch

基于PyTorch的可微分音频信号处理器库

dasp-pytorch是一个基于PyTorch的可微分音频信号处理库。它实现了混响、失真、动态范围处理、均衡和立体声处理等功能,可用于虚拟模拟建模、参数估计、自动DSP和风格迁移。该库支持CPU和GPU批处理,有助于加速训练和优化性能。作为开源项目,dasp-pytorch在Apache 2.0许可下可免费用于学术和商业目的。

dasp

PyTorch中的可微分音频信号处理器

  包括混响、失真、动态范围处理、均衡、立体声处理。

  支持虚拟模拟建模、盲参数估计、自动化DSP和风格迁移。

  批处理可在CPU和GPU加速器上运行,实现快速训练并减少瓶颈。

  开源且可在Apache 2.0许可下免费用于学术和商业应用。

安装

pip install dasp-pytorch

或者,进行本地安装。

git clone https://github.com/csteinmetz1/dasp-pytorch
cd dasp-pytorch
pip install -e .

示例

dasp-pytorch是一个Python库,用于使用PyTorch构建可微分音频信号处理器。 这些可微分处理器可以单独使用或在神经网络的计算图中使用。 我们为所有处理器提供纯函数接口,以便于使用并在项目间移植。 除非另有说明,所有效果函数都期望输入和输出形状为(batch_size, num_channels, num_samples)的3维张量。 在计算图中使用效果就像调用以输入张量为参数的函数一样简单。

快速入门

这里有一个最小示例,演示如何使用梯度下降反向工程简单失真效果的驱动值。

自己试试:在Colab中打开

import torch
import torchaudio
import dasp_pytorch

# 加载音频
x, sr = torchaudio.load("audio/short_riff.wav")

# 创建批次维度
# (batch_size, n_channels, n_samples)
x = x.unsqueeze(0)

# 应用16 dB驱动的失真
drive = torch.tensor([16.0])
y = dasp_pytorch.functional.distortion(x, sr, drive)

# 创建一个要优化的参数
drive_hat = torch.nn.Parameter(torch.tensor(0.0))
optimizer = torch.optim.Adam([drive_hat], lr=0.01)

# 优化参数
n_iters = 2500
for n in range(n_iters):
    # 用估计的参数应用失真
    y_hat = dasp_pytorch.functional.distortion(x, sr, drive_hat)

    # 计算估计值与目标之间的距离
    loss = torch.nn.functional.mse_loss(y_hat, y)

    # 优化
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()
    print(
        f"步骤: {n+1}/{n_iters}, 损失: {loss.item():.3e}, 驱动: {drive_hat.item():.3f}\r"
    )
    

对于剩余的示例,我们将使用GuitarSet数据集。 你可以使用以下命令下载数据:

mkdir data
wget https://zenodo.org/records/3371780/files/audio_mono-mic.zip
unzip audio_mono-mic.zip
rm audio_mono-mic.zip

更多示例

音频处理器

音频处理器函数接口
增益gain()
失真distortion()
参数均衡器parametric_eq()
动态范围压缩器compressor()
动态范围扩展器expander()
混响noise_shaped_reverberation()
立体声扩展器stereo_widener()
立体声声像stereo_panner()
立体声总线stereo_bus()

引用

如果您使用了这个库,请考虑引用以下论文:

可微分参数均衡器和动态范围压缩器

@article{steinmetz2022style,
  title={Style transfer of audio effects with differentiable signal processing},
  author={Steinmetz, Christian J and Bryan, Nicholas J and Reiss, Joshua D},
  journal={arXiv preprint arXiv:2207.08759},
  year={2022}
}

具有频带噪声整形的可微分人工混响

@inproceedings{steinmetz2021filtered,
  title={Filtered noise shaping for time domain room impulse 
         response estimation from reverberant speech},
  author={Steinmetz, Christian J and Ithapu, Vamsi Krishna and Calamia, Paul},
  booktitle={WASPAA},
  year={2021},
  organization={IEEE}
}

可微分IIR滤波器

@inproceedings{nercessian2020neural,
  title={Neural parametric equalizer matching using differentiable biquads},
  author={Nercessian, Shahan},
  booktitle={DAFx},
  year={2020}
}
@inproceedings{colonel2022direct,
  title={Direct design of biquad filter cascades with deep learning 
          by sampling random polynomials},
  author={Colonel, Joseph T and Steinmetz, Christian J and 
          Michelen, Marcus and Reiss, Joshua D},
  booktitle={ICASSP},
  year={2022},
  organization={IEEE}

致谢

由EPSRC UKRI人工智能与音乐博士培训中心(EP/S022694/1)支持。

           

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计 是一个多功能的在线设计和创意平台,提供广泛的设计工具和资源,以满足不同用户的需求。从专业的图形设计师到普通用户,无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑,稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合,帮助用户轻松实现创意设计。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号