CFLD
基于粗到细潜在扩散的姿态引导人像图像合成
陆彦佐, 张曼琳, 马安迪, 谢晓华, 赖剑煌
2024年6月17-21日,美国西雅图,IEEE / CVF 计算机视觉与模式识别会议(CVPR)
简要概述
如果您想引用并与我们的方法进行比较,请从Google Drive下载生成的图像。 (包括DeepFashion数据集上的256x176和512x352分辨率,以及Market-1501数据集上的128x64分辨率)
新闻🔥🔥🔥
- 2024/02/27 我们的论文"基于粗到细潜在扩散的姿态引导人像图像合成"被CVPR 2024接收。
- 2024/02/28 我们发布了代码并上传了arXiv预印本。
- 2024/03/09 DeepFashion数据集上的模型检查点已在Google Drive上发布。
- 2024/03/09 我们注意到不同开源代码使用的文件命名可能会非常混乱。为了便于未来的工作,我们整理了论文中用于定性比较的几种方法生成的图像。它们统一调整为256x176或512x352分辨率,以png格式存储,并使用相同的命名格式。尽情享用!🤗
- 2024/03/20 我们上传了用于推理/推理的Jupyter笔记本。您可以根据需要进行修改,例如用自定义图像替换条件图像,并从测试数据集中随机采样目标姿态。
- 2024/04/05 我们的论文被评为CVPR 2024亮点论文!!!
- 2024/04/10 最终版本现已在arXiv上发布。补充材料包含更多讨论和结果已添加。
准备工作
安装环境
conda env create -f environment.yaml
下载DeepFashion数据集
- 从DeepFashion的店内服装检索基准下载Img/img_highres.zip,解压到
./fashion
目录下。(需要密码,请联系DeepFashion的作者(不是我们!!!)获取许可。) - 从DPTN下载训练/测试对和关键点,放在
./fashion
目录下。 - 确保
./fashion
目录的树形结构如下:fashion ├── fashion-resize-annotation-test.csv ├── fashion-resize-annotation-train.csv ├── fashion-resize-pairs-test.csv ├── fashion-resize-pairs-train.csv ├── MEN ├── test.lst ├── train.lst └── WOMEN
- 使用Python运行
generate_fashion_datasets.py
。
下载预训练模型
- 按需下载以下预训练模型,放在
./pretrained_models
目录下: - 确保
./pretrained_models
目录的树形结构如下:pretrained_models ├── clip │ ├── config.json │ └── model.safetensors ├── scheduler │ └── scheduler_config.json ├── swin │ └── swin_base_patch4_window12_384_22kto1k.pth ├── unet │ ├── config.json │ └── diffusion_pytorch_model.safetensors └── vae ├── config.json └── diffusion_pytorch_model.safetensors
训练
对于多GPU,默认运行以下命令:
bash scripts/multi_gpu/pose_transfer_train.sh 0,1,2,3,4,5,6,7
对于单GPU,默认运行以下命令:
bash scripts/single_gpu/pose_transfer_train.sh 0
对于消融研究,例如运行以下命令指定配置:
bash scripts/multi_gpu/pose_transfer_train.sh 0,1,2,3,4,5,6,7 --config_file configs/ablation_study/no_app.yaml
推理
对于多GPU,例如运行以下命令指定检查点:
bash scripts/multi_gpu/pose_transfer_test.sh 0,1,2,3,4,5,6,7 MODEL.PRETRAINED_PATH checkpoints
对于单GPU,例如运行以下命令指定检查点:
bash scripts/single_gpu/pose_transfer_test.sh 0 MODEL.PRETRAINED_PATH checkpoints
引用
@inproceedings{lu2024coarse,
title={Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis},
author={Lu, Yanzuo and Zhang, Manlin and Ma, Andy J and Xie, Xiaohua and Lai, Jian-Huang},
booktitle={CVPR},
year={2024}
}