项目介绍:TF-ICON
概述
TF-ICON 是一种全新的无训练跨域图像合成框架,利用文本驱动的扩散模型实现图像编辑任务的突破性进展。这个项目的目标是将用户提供的对象无缝地整合到特定的视觉背景中。与许多现有方法不同的是,TF-ICON 不需要昂贵的实例优化或对预训练模型的微调,从而保持模型的原有推理能力。
项目特点
-
无训练需求:TF-ICON 能够在不需要额外训练、微调或优化的情况下直接使用现成的扩散模型进行图像合成。
-
特殊提示(Exceptional Prompt):为了促进文本驱动的扩散模型准确地将真实图像转化为潜在表示,该框架引入了一种不包含信息的“特殊提示”。这为后续的图像合成奠定了基础。
-
适应多种数据集:实验结果表明,通过特殊提示装备的稳定扩散模型在 CelebA-HQ、COCO 和 ImageNet 等多个数据集上的表现超越了现有的多种反演方法。而且 TF-ICON 在多种视觉领域中都表现优于先前的基线方法。
设置与运行
环境设置
TF-ICON 的代码基础构架于稳定扩散模型,建议使用至少 23 GB 的显存来运行,具体需求视输入样例而定。
-
创建 Conda 环境:
git clone https://github.com/Shilin-LU/TF-ICON.git cd TF-ICON conda env create -f tf_icon_env.yaml conda activate tf-icon
-
下载稳定扩散权重: 从 Hugging Face 平台获取并下载稳定扩散模型的权重文件
sd-v2-1_512-ema-pruned.ckpt
,然后将其放置在./ckpt
目录下。
数据准备
在 ./inputs
目录下准备输入样例,每个样例由一个背景图(bg)、一个前景图(fg)、前景图分割掩码(fg_mask)以及指定合成位置的用户掩码(mask_bg_fg)组成。
执行图像合成
根据领域差异选择运行模式:
-
跨域模式(cross_domain):
python scripts/main_tf_icon.py --ckpt <path/to/model.ckpt/> \ --root ./inputs/cross_domain \ --domain 'cross' \ --dpm_steps 20 \ --dpm_order 2 \ --scale 5 \ --tau_a 0.4 \ --tau_b 0.8 \ --outdir ./outputs \ --gpu cuda:0 \ --seed 3407
-
同域模式(same_domain):
python scripts/main_tf_icon.py --ckpt <path/to/model.ckpt/> \ --root ./inputs/same_domain \ --domain 'same' \ --dpm_steps 20 \ --dpm_order 2 \ --scale 2.5 \ --tau_a 0.4 \ --tau_b 0.8 \ --outdir ./outputs \ --gpu cuda:0 \ --seed 3407
各参数介绍:
ckpt
: 稳定扩散模型的权重路径。root
: 输入数据的路径。domain
: 设置为 'cross' 表示前后景来自不同视觉领域,'same' 表示来自同一领域。dpm_steps
: 扩散采样步数。dpm_solver
: 概率流ODE求解器的阶数。scale
: 无分类器引导尺度(CFG scale)。tau_a
和tau_b
: 用于决定混合自注意力图和保留背景的阈值。
测试基准
TF-ICON 所提供的测试基准可用于验证此框架在不同领域的有效性。
额外结果
TF-ICON 被应用到多种艺术风格中,包括草图绘画、油画以及卡通等,在不同风格间也展示出良好的适应性和表现。
致谢
TF-ICON 的开发得益于很多前人的贡献,特别是 Stable-Diffusion 和 Prompt-to-Prompt 项目的支持。
引用
如果您在研究中使用了 TF-ICON,请考虑以如下方式引用:
@inproceedings{lu2023tf,
title={TF-ICON: Diffusion-Based Training-Free Cross-Domain Image Composition},
author={Lu, Shilin and Liu, Yanzhu and Kong, Adams Wai-Kin},
booktitle={Proceedings of the IEEE/CVF International Conference on Computer Vision},
pages={2294--2305},
year={2023}
}
TF-ICON 项目旨在通过无训练的框架为图像合成领域提供高效解决方案,使用户无需复杂的技术操作即可实现高质量图像编辑。