项目简介
Kandinsky-2-2-decoder是一个先进的文本到图像生成模型,它继承了Dall-E 2和Latent Diffusion的优秀实践,同时引入了一些创新理念。该项目由Arseniy Shakhmatov、Anton Razzhigaev等多位研究人员共同开发。
核心特点
- 采用CLIP模型作为文本和图像编码器
- 在CLIP模态的潜在空间之间使用扩散图像先验映射
- 支持高分辨率图像生成,最高可达1024×1024像素
- 可以处理不同的宽高比例
- 具备文本引导的图像生成和图像插值等多种功能
技术架构
该模型由三个主要部分组成:
- 基于transformer的图像先验模型
- UNet扩散模型
- 图像解码器
在训练过程中,模型使用了预训练的CLIP-ViT-G模型来生成CLIP文本和图像嵌入。最终阶段使用MoVQGAN模型将潜在表示解码为实际图像。
训练数据
模型的训练过程分为几个阶段:
- 在LAION Improved Aesthetics数据集上进行图像先验训练
- 在LAION HighRes数据上进行微调
- 使用200万张高质量图像进行额外的微调,包括COYO、动漫和地标等数据
性能评估
在COCO_30k数据集的零样本测试中,Kandinsky 2.2展现出了优秀的性能:
- FID指标达到8.21,优于Stable Diffusion 2.1和DALL-E 2等知名模型
- 在图像质量和文本理解能力方面都有显著提升
实用功能
该模型支持多种实用功能:
- 文本到图像生成:可以根据文本描述生成高质量图像
- 图像到图像转换:支持在保留原始图像结构的同时进行风格转换
- 图像插值:可以在多个条件之间进行平滑过渡,包括文本描述和图像
使用方式
模型已经集成到diffusers库中,用户可以通过简单的pip安装来使用:
pip install diffusers transformers accelerate
之后即可通过Python代码调用相关功能,支持GPU加速,并可以设置多种参数来控制生成效果。