AutoStudio

AutoStudio：在多轮交互式图像生成中塑造一致的主体

</div>

模型架构

模型架构图

摘要

随着最先进的文本到图像（T2I）生成模型已经能够出色地生成单幅图像，一项更具挑战性的任务——多轮交互式图像生成开始吸引相关研究社区的关注。这项任务要求模型与用户进行多轮交互，生成一系列连贯的图像。然而，由于用户可能频繁切换主体，现有的方法在生成多样化图像的同时难以保持主体一致性。为解决这一问题，我们提出了一个免训练的多代理框架，名为AutoStudio。AutoStudio采用基于大型语言模型（LLMs）的三个代理来处理交互，以及一个基于稳定扩散（SD）的代理来生成高质量图像。具体而言，AutoStudio包括：（i）一个主体管理器，用于解释交互对话并管理每个主体的上下文；（ii）一个布局生成器，用于生成精细的边界框来控制主体位置；（iii）一个监督器，用于提供布局优化建议；以及（iv）一个绘图器，用于完成图像生成。此外，我们引入了一个并行UNet来替代绘图器中的原始UNet，它使用两个并行的交叉注意力模块来利用主体感知特征。我们还引入了一种主体初始化生成方法，以更好地保留小主体。我们的AutoStudio因此能够以交互和一致的方式生成一系列多主体图像。在公开的CMIGBench基准测试和人工评估中的大量实验表明，AutoStudio在多轮中很好地保持了多主体一致性，并且在平均Fréchet Inception Distance上将最先进的性能提高了13.65%，在平均角色-角色相似度上提高了2.83%。

前期工作：TheaterGen

待办事项

发布Hugging Face演示
发布SDXL版本代码
发布SDv1.5版本代码

:fire: 新闻

[2024.06.26] AutoStudio获得200颗星！
[2024.06.22] 修复了bug，发布SDXL版本
[2024.06.11] 我们发布了SDv1.5代码
[2024.06.06] 我们发布了代码仓库

🚀 运行

准备SD的所有预训练检查点（强烈推荐dreamlike-art/dreamlike-anime-1.0）和IP-Adapter
准备/DETECT_SAMefficient_sam_s_gpu.jit和/DETECT_SAM/Grounding-DINO/groundingdino_swint_ogc.pth用于groundingdino和efficientSAM
创建环境并运行以下代码：

python run.py

👀 联系我们

如果您有任何问题，请随时发送电子邮件至howe4884@outlook.com。 🌟🌟🌟（我是一名本科生，正在积极寻找25年秋季博士项目的机会。）🌟🌟🌟

示例图

引用

如果您觉得这段代码有帮助，请考虑引用：

@article{cheng2024autostudio,
  title={AutoStudio: Crafting Consistent Subjects in Multi-turn Interactive Image Generation},
  author={Cheng, Junhao and Lu, Xi and Li, Hanhui and Zai, Khun Loun and Yin, Baiqiao and Cheng, Yuhao and Yan, Yiqiang and Liang, Xiaodan},
  journal={arXiv preprint arXiv:2406.01388},
  year={2024}
}