Project Icon

AutoStudio

提升多轮交互图像生成的主体一致性

AutoStudio是一个创新的多代理框架,专注于解决多轮交互式图像生成中的主体一致性问题。该框架包含主体管理器、布局生成器、监督器和绘图器四个核心组件。通过引入并行U-Net和主体初始化生成方法,AutoStudio实现了连贯多主体图像序列的生成。在CMIGBench基准测试中,该框架在平均Fréchet Inception Distance和平均字符-字符相似度方面分别提升了13.65%和2.83%,展示了其在多轮交互中保持多主体一致性的优异表现。

AutoStudio:在多轮交互式图像生成中塑造一致的主体

[📄论文]   [🚩项目页面]
概览图

模型架构

模型架构图

摘要

随着最先进的文本到图像(T2I)生成模型已经能够出色地生成单幅图像,一项更具挑战性的任务——多轮交互式图像生成开始吸引相关研究社区的关注。这项任务要求模型与用户进行多轮交互,生成一系列连贯的图像。然而,由于用户可能频繁切换主体,现有的方法在生成多样化图像的同时难以保持主体一致性。为解决这一问题,我们提出了一个免训练的多代理框架,名为AutoStudio。AutoStudio采用基于大型语言模型(LLMs)的三个代理来处理交互,以及一个基于稳定扩散(SD)的代理来生成高质量图像。具体而言,AutoStudio包括:(i)一个主体管理器,用于解释交互对话并管理每个主体的上下文;(ii)一个布局生成器,用于生成精细的边界框来控制主体位置;(iii)一个监督器,用于提供布局优化建议;以及(iv)一个绘图器,用于完成图像生成。此外,我们引入了一个并行UNet来替代绘图器中的原始UNet,它使用两个并行的交叉注意力模块来利用主体感知特征。我们还引入了一种主体初始化生成方法,以更好地保留小主体。我们的AutoStudio因此能够以交互和一致的方式生成一系列多主体图像。在公开的CMIGBench基准测试和人工评估中的大量实验表明,AutoStudio在多轮中很好地保持了多主体一致性,并且在平均Fréchet Inception Distance上将最先进的性能提高了13.65%,在平均角色-角色相似度上提高了2.83%。

前期工作:TheaterGen

待办事项

  • 发布Hugging Face演示
  • 发布SDXL版本代码
  • 发布SDv1.5版本代码

:fire: 新闻

  • [2024.06.26] AutoStudio获得200颗星!
  • [2024.06.22] 修复了bug,发布SDXL版本
  • [2024.06.11] 我们发布了SDv1.5代码
  • [2024.06.06] 我们发布了代码仓库

🚀 运行

  1. 准备SD的所有预训练检查点(强烈推荐dreamlike-art/dreamlike-anime-1.0)和IP-Adapter
  2. 准备/DETECT_SAMefficient_sam_s_gpu.jit/DETECT_SAM/Grounding-DINO/groundingdino_swint_ogc.pth用于groundingdino和efficientSAM
  3. 创建环境并运行以下代码:
python run.py

👀 联系我们

如果您有任何问题,请随时发送电子邮件至howe4884@outlook.com。 🌟🌟🌟(我是一名本科生,正在积极寻找25年秋季博士项目的机会。)🌟🌟🌟

示例图

引用

如果您觉得这段代码有帮助,请考虑引用:

@article{cheng2024autostudio,
  title={AutoStudio: Crafting Consistent Subjects in Multi-turn Interactive Image Generation},
  author={Cheng, Junhao and Lu, Xi and Li, Hanhui and Zai, Khun Loun and Yin, Baiqiao and Cheng, Yuhao and Yan, Yiqiang and Liang, Xiaodan},
  journal={arXiv preprint arXiv:2406.01388},
  year={2024}
}
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能,包括文生视频、动态画面和形象生成等,帮助用户快速上手,创造专业级内容。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台,用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品,帮助用户探索创意灵感。

Project Cover

讯飞文书

讯飞文书依托讯飞星火大模型,为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能,满足事务性工作的高频需求,帮助撰稿人节省精力,提高效率,优化工作与生活。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号