⚡️ 摘要
本文介绍了MultiBooth,这是一种新颖且高效的技术,用于从文本生成图像时实现多概念定制。尽管定制化生成方法取得了重大进展,特别是随着扩散模型的成功,但现有方法在多概念场景中常常面临概念保真度低和推理成本高的问题。MultiBooth通过将多概念生成过程分为两个阶段来解决这些问题:单概念学习阶段和多概念整合阶段。在单概念学习阶段,我们采用多模态图像编码器和高效的概念编码技术来学习每个概念的简洁而具有辨识度的表示。在多概念整合阶段,我们使用边界框在交叉注意力图中定义每个概念的生成区域。这种方法使得在指定区域内创建各个概念成为可能,从而促进多概念图像的形成。这种策略不仅提高了概念保真度,还降低了额外的推理成本。MultiBooth在定性和定量评估中都超越了各种基准方法,展示了其卓越的性能和计算效率。
🌴 结果
我们的MultiBooth基于预训练的Stable Diffusion v1.5模型。更多结果可以在我们的项目主页上找到。
🔍 方法
MultiBooth的整体流程可以分为两个阶段:(a) 在单概念学习阶段,训练多模态编码器和LoRA参数来编码每个单独的概念。(b) 在多概念整合阶段,将定制的嵌入S和V转换为文本嵌入,然后与相应的LoRA参数结合形成单概念模块。这些单概念模块连同边界框一起作为区域定制模块的输入。
🔥 新闻
💡 引用
@misc{zhu2024multibooth,
title={MultiBooth: Towards Generating All Your Concepts in an Image from Text},
author={Chenyang Zhu and Kai Li and Yue Ma and Chunming He and Li Xiu},
year={2024},
eprint={2404.14239},
archivePrefix={arXiv},
primaryClass={cs.CV}
}