stable-diffusion-2-base - 先进的AI文本到图像生成模型

Stable Diffusion v2-base 项目介绍

Stable Diffusion v2-base 是一个强大的人工智能图像生成模型，由 Robin Rombach 和 Patrick Esser 开发。这个模型能够根据文本描述生成和修改图像，是一种基于扩散的文本到图像生成模型。

模型特点

使用英语作为主要语言
基于潜在扩散模型（Latent Diffusion Model）
采用固定的预训练文本编码器（OpenCLIP-ViT/H）
开源可用，遵循 CreativeML Open RAIL++-M 许可证

训练过程

模型的训练过程分为两个阶段：

在 LAION-5B 数据集的子集上进行了 550,000 步的训练，分辨率为 256x256
继续在同一数据集上进行了 850,000 步的训练，分辨率提高到 512x512

训练数据经过了筛选，排除了明确的色情内容，并使用了 LAION 的 NSFW 分类器和美学评分进行过滤。

使用方法

研究人员可以通过以下两种方式使用 Stable Diffusion v2-base：

使用 stablediffusion 仓库，下载 512-base-ema.ckpt 文件
使用 Hugging Face 的 diffusers 库

使用 diffusers 库的示例代码如下：

from diffusers import StableDiffusionPipeline, EulerDiscreteScheduler
import torch

model_id = "stabilityai/stable-diffusion-2-base"
scheduler = EulerDiscreteScheduler.from_pretrained(model_id, subfolder="scheduler")
pipe = StableDiffusionPipeline.from_pretrained(model_id, scheduler=scheduler, torch_dtype=torch.float16)
pipe = pipe.to("cuda")

prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]  
    
image.save("astronaut_rides_horse.png")