Project Icon

TF-ICON

利用Text-driven Diffusion模型实现跨域图像无训练组合的框架

TF-ICON是一个利用Text-driven Diffusion模型实现跨域图像无训练组合的框架。相比需要实例化优化或微调预训练模型的方法,TF-ICON无需额外训练或优化,就可无缝集成用户提供的对象,还使用了特别提示来帮助模型准确还原真实图像。实验表明,该方法在多个数据集(如CelebA-HQ、COCO和ImageNet)上的表现优于现有技术。

项目介绍:TF-ICON

概述

TF-ICON 是一种全新的无训练跨域图像合成框架,利用文本驱动的扩散模型实现图像编辑任务的突破性进展。这个项目的目标是将用户提供的对象无缝地整合到特定的视觉背景中。与许多现有方法不同的是,TF-ICON 不需要昂贵的实例优化或对预训练模型的微调,从而保持模型的原有推理能力。

项目特点

  1. 无训练需求:TF-ICON 能够在不需要额外训练、微调或优化的情况下直接使用现成的扩散模型进行图像合成。

  2. 特殊提示(Exceptional Prompt):为了促进文本驱动的扩散模型准确地将真实图像转化为潜在表示,该框架引入了一种不包含信息的“特殊提示”。这为后续的图像合成奠定了基础。

  3. 适应多种数据集:实验结果表明,通过特殊提示装备的稳定扩散模型在 CelebA-HQ、COCO 和 ImageNet 等多个数据集上的表现超越了现有的多种反演方法。而且 TF-ICON 在多种视觉领域中都表现优于先前的基线方法。

设置与运行

环境设置

TF-ICON 的代码基础构架于稳定扩散模型,建议使用至少 23 GB 的显存来运行,具体需求视输入样例而定。

  1. 创建 Conda 环境

    git clone https://github.com/Shilin-LU/TF-ICON.git
    cd TF-ICON
    conda env create -f tf_icon_env.yaml
    conda activate tf-icon
    
  2. 下载稳定扩散权重: 从 Hugging Face 平台获取并下载稳定扩散模型的权重文件 sd-v2-1_512-ema-pruned.ckpt,然后将其放置在 ./ckpt 目录下。

数据准备

./inputs 目录下准备输入样例,每个样例由一个背景图(bg)、一个前景图(fg)、前景图分割掩码(fg_mask)以及指定合成位置的用户掩码(mask_bg_fg)组成。

执行图像合成

根据领域差异选择运行模式:

  • 跨域模式(cross_domain)

    python scripts/main_tf_icon.py  --ckpt <path/to/model.ckpt/>      \
                                    --root ./inputs/cross_domain      \
                                    --domain 'cross'                  \
                                    --dpm_steps 20                    \
                                    --dpm_order 2                     \
                                    --scale 5                         \
                                    --tau_a 0.4                       \
                                    --tau_b 0.8                       \
                                    --outdir ./outputs                \
                                    --gpu cuda:0                      \
                                    --seed 3407
    
  • 同域模式(same_domain)

    python scripts/main_tf_icon.py  --ckpt <path/to/model.ckpt/>      \
                                    --root ./inputs/same_domain       \
                                    --domain 'same'                   \
                                    --dpm_steps 20                    \
                                    --dpm_order 2                     \
                                    --scale 2.5                       \
                                    --tau_a 0.4                       \
                                    --tau_b 0.8                       \
                                    --outdir ./outputs                \
                                    --gpu cuda:0                      \
                                    --seed 3407
    

各参数介绍:

  • ckpt: 稳定扩散模型的权重路径。
  • root: 输入数据的路径。
  • domain: 设置为 'cross' 表示前后景来自不同视觉领域,'same' 表示来自同一领域。
  • dpm_steps: 扩散采样步数。
  • dpm_solver: 概率流ODE求解器的阶数。
  • scale: 无分类器引导尺度(CFG scale)。
  • tau_atau_b: 用于决定混合自注意力图和保留背景的阈值。

测试基准

TF-ICON 所提供的测试基准可用于验证此框架在不同领域的有效性。

额外结果

TF-ICON 被应用到多种艺术风格中,包括草图绘画、油画以及卡通等,在不同风格间也展示出良好的适应性和表现。

致谢

TF-ICON 的开发得益于很多前人的贡献,特别是 Stable-Diffusion 和 Prompt-to-Prompt 项目的支持。

引用

如果您在研究中使用了 TF-ICON,请考虑以如下方式引用:

@inproceedings{lu2023tf,
  title={TF-ICON: Diffusion-Based Training-Free Cross-Domain Image Composition},
  author={Lu, Shilin and Liu, Yanzhu and Kong, Adams Wai-Kin},
  booktitle={Proceedings of the IEEE/CVF International Conference on Computer Vision},
  pages={2294--2305},
  year={2023}
}

TF-ICON 项目旨在通过无训练的框架为图像合成领域提供高效解决方案,使用户无需复杂的技术操作即可实现高质量图像编辑。

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能,包括文生视频、动态画面和形象生成等,帮助用户快速上手,创造专业级内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台,用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品,帮助用户探索创意灵感。

Project Cover

讯飞文书

讯飞文书依托讯飞星火大模型,为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能,满足事务性工作的高频需求,帮助撰稿人节省精力,提高效率,优化工作与生活。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号