模型架构
摘要
随着最先进的文本到图像(T2I)生成模型已经能够出色地生成单幅图像,一项更具挑战性的任务——多轮交互式图像生成开始吸引相关研究社区的关注。这项任务要求模型与用户进行多轮交互,生成一系列连贯的图像。然而,由于用户可能频繁切换主体,现有的方法在生成多样化图像的同时难以保持主体一致性。为解决这一问题,我们提出了一个免训练的多代理框架,名为AutoStudio。AutoStudio采用基于大型语言模型(LLMs)的三个代理来处理交互,以及一个基于稳定扩散(SD)的代理来生成高质量图像。具体而言,AutoStudio包括:(i)一个主体管理器,用于解释交互对话并管理每个主体的上下文;(ii)一个布局生成器,用于生成精细的边界框来控制主体位置;(iii)一个监督器,用于提供布局优化建议;以及(iv)一个绘图器,用于完成图像生成。此外,我们引入了一个并行UNet来替代绘图器中的原始UNet,它使用两个并行的交叉注意力模块来利用主体感知特征。我们还引入了一种主体初始化生成方法,以更好地保留小主体。我们的AutoStudio因此能够以交互和一致的方式生成一系列多主体图像。在公开的CMIGBench基准测试和人工评估中的大量实验表明,AutoStudio在多轮中很好地保持了多主体一致性,并且在平均Fréchet Inception Distance上将最先进的性能提高了13.65%,在平均角色-角色相似度上提高了2.83%。
前期工作:TheaterGen
待办事项
- 发布Hugging Face演示
- 发布SDXL版本代码
- 发布SDv1.5版本代码
:fire: 新闻
- [2024.06.26] AutoStudio获得200颗星!
- [2024.06.22] 修复了bug,发布SDXL版本
- [2024.06.11] 我们发布了SDv1.5代码
- [2024.06.06] 我们发布了代码仓库
🚀 运行
- 准备SD的所有预训练检查点(强烈推荐
dreamlike-art/dreamlike-anime-1.0
)和IP-Adapter - 准备
/DETECT_SAMefficient_sam_s_gpu.jit
和/DETECT_SAM/Grounding-DINO/groundingdino_swint_ogc.pth
用于groundingdino和efficientSAM - 创建环境并运行以下代码:
python run.py
👀 联系我们
如果您有任何问题,请随时发送电子邮件至howe4884@outlook.com。 🌟🌟🌟(我是一名本科生,正在积极寻找25年秋季博士项目的机会。)🌟🌟🌟
引用
如果您觉得这段代码有帮助,请考虑引用:
@article{cheng2024autostudio,
title={AutoStudio: Crafting Consistent Subjects in Multi-turn Interactive Image Generation},
author={Cheng, Junhao and Lu, Xi and Li, Hanhui and Zai, Khun Loun and Yin, Baiqiao and Cheng, Yuhao and Yan, Yiqiang and Liang, Xiaodan},
journal={arXiv preprint arXiv:2406.01388},
year={2024}
}