stable-diffusion-v1-5-inpainting - 稳定扩散修复模型，提升图像生成与修复能力

Stable Diffusion v1.5 Inpainting 项目介绍

项目背景

Stable Diffusion Inpainting 是一种稳定扩散的图像生成模型，它能够基于文字描述生成逼真的图像，并且具备图像修复（Inpainting）的功能。图像修复功能通过使用掩码（mask）来对图像进行特定区域的修补和重绘。

模型开发与训练

模型初始化：Stable-Diffusion-Inpainting 模型以 Stable-Diffusion-v-1-2 的权重为基础进行了初始化。

训练步骤：

常规训练：首先进行 595,000 步的常规训练。
修复训练：在图像分辨率 512x512 上进行 440,000 步的修复训练。
数据集：训练使用 "laion-aesthetics v2 5+" 数据集，并在部分训练步骤中随机丢弃 10% 的文本条件以提高采样的分类器自由度。
模型结构：UNet 网络在修复过程中增加了 5 个输入通道，以便处理编码后的掩码图像和掩码本身。

模型使用

用户可以通过 Diffusers 库或 RunwayML GitHub 仓库来实现和使用此模型。以下是示例代码选段：

from diffusers import StableDiffusionInpaintPipeline

pipe = StableDiffusionInpaintPipeline.from_pretrained(
    "runwayml/stable-diffusion-inpainting",
    revision="fp16",
    torch_dtype=torch.float16,
)
prompt = "Face of a yellow cat, high resolution, sitting on a park bench"
image = pipe(prompt=prompt, image=image, mask_image=mask_image).images[0]
image.save("./yellow_cat_on_park_bench.png")