Project Icon

sige

提升图像编辑效率的空间增量生成引擎

SIGE是一种空间增量生成引擎,通过在编辑区域选择性执行计算来提高图像编辑效率。这种方法显著减少了条件生成对抗网络和扩散模型的计算量和延迟,同时保持了图像质量。SIGE对DDPM、Stable Diffusion和GauGAN等模型的性能提升明显,在NeurIPS 2022发表,并开源了代码和基准数据集。

空间增量生成引擎 (SIGE)

论文 | 项目 | 幻灯片 | YouTube

[最新消息!] SIGE已被T-PAMI接收!

[最新消息!] SIGE现已支持Stable Diffusion和Mac MPS后端!我们还发布了DDPM在M1 Macbook Pro上的交互式演示代码!

[最新消息!] SIGE已被NeurIPS 2022接收!我们的代码和基准数据集已公开可用!

预览图 我们提出了空间增量生成引擎(SIGE),这是一个针对图像编辑应用选择性地在编辑区域执行计算的引擎。计算量和延迟是针对单次前向传播测量的。对于上述示例,SIGE显著降低了SDEditDDPM(4-6倍)、Stable Diffusion(8倍)和GauGAN(15倍)的计算量,同时保持图像质量。当与现有的模型压缩方法(如GAN压缩)结合时,它进一步将GauGAN的计算量减少了47倍。在NVIDIA RTX 3090上,SIGE实现了高达7.2倍的加速。

条件GAN和扩散模型的高效空间稀疏推理
李牧阳林吉孟晨林Stefano Ermon韩松朱俊彦
卡内基梅隆大学、麻省理工学院和斯坦福大学
NeurIPS 2022

演示

相比原始DDPM,SIGE在M1 MacBook Pro GPU上实现了2倍更少的转换时间,因为我们选择性地在编辑区域执行计算。

概述

概述基于分块的稀疏卷积概述。对于网络中的每个卷积Fl,我们将其封装为SIGE Convl。原始图像的激活已经预先计算好。在获得编辑后的图像时,我们首先计算原始图像和编辑后图像之间的差异掩码,并将掩码缩减为活跃块索引以定位编辑区域。在每个SIGE Convl中,我们根据缩减后的索引直接从编辑后的激活Aledited中收集活跃块,沿批次维度堆叠这些块,并将它们输入Fl。如果Fl是步长为1的3×3卷积,收集的块会有宽度为2的重叠。在从Fl获得输出块后,我们将它们散布回Fl(Aloriginal)以获得编辑后的输出,这近似于Fl(Aledited)。

性能

效率

概述 在1.2%的编辑下,SIGE可以将DDPM、Progressive Distillation和GauGAN的计算量减少7-18倍,在NVIDIA RTX 3090上实现2-4倍加速,在Apple M1 Pro GPU上实现3-5倍加速,在M1 Pro CPU上实现4-14倍加速。当与GAN压缩结合时,它进一步将GauGAN的计算量减少50倍,在M1 Pro CPU上实现38倍加速。请查看我们的论文以获取更多细节和结果。

质量

概述不同编辑大小下的定性结果。PD是Progressive Distillation。我们的方法很好地保持了原始模型的视觉保真度,而不会丢失全局上下文。 quality-stable-diffusion

在NVIDIA RTX 3090上测量的Stable Diffusion在图像修复和编辑方面的更多定性结果。

参考文献:

  • 去噪扩散概率模型(DDPM),Ho等人,ICLR 2020
  • 去噪扩散隐式模型(DDIM),Song等人,ICLR 2021
  • 用于扩散模型快速采样的渐进蒸馏,Salimans等人,ICLR 2022
  • 具有空间自适应归一化的语义图像合成(GauGAN),Park等人,CVPR 2019
  • GAN压缩:交互式条件GAN的高效架构,Li等人,CVPR 2020
  • 使用潜在扩散模型的高分辨率图像合成,Rombach等人,CVPR 2022

先决条件

  • Python3
  • CPU、M1 GPU或NVIDIA GPU + CUDA CuDNN
  • PyTorch >= 1.7。对于M1 GPU支持,请安装PyTorch>=2.0。

入门指南

安装

安装PyTorch后,您应该能够通过PyPI安装SIGE

pip install sige

或通过GitHub:

pip install git+https://github.com/lmxyy/sige.git

或本地安装以进行开发

git clone git@github.com:lmxyy/sige.git
cd sige
pip install -e .

对于MPS后端,请设置环境变量:

export PYTORCH_ENABLE_MPS_FALLBACK=1

使用示例

请参阅example.py以获取最小SIGE卷积示例。首先按照上述说明安装SIGE,并使用以下命令安装torchprofile

pip install torchprofile

然后您可以运行:

python example.py

我们还提供了colab示例。

基准测试

要重现DDPMProgressive Distillation的结果,或下载LSUN Church编辑数据集,请按照diffusion/README.md中的说明操作。

要重现GauGANGAN Compression的结果,或下载Cityscapes编辑数据集,请按照gaugan/README.md中的说明操作。

引用

如果您在研究中使用此代码,请引用我们的论文。

@inproceedings{li2022efficient,
  title={Efficient Spatially Sparse Inference for Conditional GANs and Diffusion Models},
  author={Li, Muyang and Lin, Ji and Meng, Chenlin and Ermon, Stefano and Han, Song and Zhu, Jun-Yan},
  booktitle={Advances in Neural Information Processing Systems (NeurIPS)},
  year={2022}
}

致谢

我们的代码基于SDEditddimdiffusion_distillationgan-compressiondpm-solverstable-diffusion开发。我们参考了sbnet实现基于平铺的稀疏卷积算法。我们的工作还受到torchsparse中收集/分散实现的启发。

我们感谢torchprofile用于MACs测量,clean-fid用于FID计算,以及drn用于Cityscapes mIoU计算。

我们感谢丁耀耀、叶子豪、郑连敏、唐浩天和朱立庚对引擎设计的有益评论。我们还感谢George Cazenavette、邓康乐、高睿涵、陆道涵、王圣宇和张炳良的宝贵反馈。该项目部分得到NSF、MIT-IBM Watson AI Lab、快手公司和索尼公司的支持。

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能,包括文生视频、动态画面和形象生成等,帮助用户快速上手,创造专业级内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台,用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品,帮助用户探索创意灵感。

Project Cover

讯飞文书

讯飞文书依托讯飞星火大模型,为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能,满足事务性工作的高频需求,帮助撰稿人节省精力,提高效率,优化工作与生活。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号