DEADiff:一种具有解耦表示的高效风格化扩散模型(CVPR 2024)
🔆 介绍
简要概述: 我们提出了DEADiff,这是一种通用方法,可以方便地合成具有给定参考图像风格并符合文本提示的新图像。
⭐⭐ 风格化文本到图像生成。
风格化文本到图像结果。分辨率:512 x 512。(已压缩)
📝 更新日志
- [2024.4.3]: 🔥🔥 发布推理代码和预训练检查点。
- [2024.3.5]: 🔥🔥 发布项目页面。
⏳ 待办事项
- 发布推理代码。
- 发布训练数据。
⚙️ 环境配置
conda create -n deadiff python=3.9.2
conda activate deadiff
conda install pytorch==2.0.0 torchvision==0.15.0 torchaudio==2.0.0 pytorch-cuda=11.8 -c pytorch -c nvidia
pip install git+https://github.com/salesforce/LAVIS.git@20230801-blip-diffusion-edit
pip install -r requirements.txt
pip install -e .
💫 推理
- 从Hugging Face下载预训练模型并将其放在./pretrained/目录下。
- 在终端中运行以下命令。
python3 scripts/app.py
Gradio应用程序允许您从参考图像转移风格。尝试一下以获取更多详细信息。
提示:"一个卷发男孩"
提示:"一个机器人"
提示:"一辆摩托车"
📢 免责声明
我们开发此代码库用于研究目的,因此它只能用于个人/研究/非商业用途。
✈️ 引用
@article{qi2024deadiff,
title={DEADiff: An Efficient Stylization Diffusion Model with Disentangled Representations},
author={Qi, Tianhao and Fang, Shancheng and Wu, Yanze and Xie, Hongtao and Liu, Jiawei and Chen, Lang and He, Qian and Zhang, Yongdong},
journal={arXiv preprint arXiv:2403.06951},
year={2024}
}
📭 联系方式
如果您有任何意见或问题,请随时联系 qth@mail.ustc.edu.cn