stable-diffusion-v1-5 - 先进的文本到图像AI生成模型

Stable Diffusion v1-5：革命性的文本到图像生成模型

Stable Diffusion v1-5是一个强大的文本到图像生成模型，它能够根据文字描述生成高质量的逼真图像。这个模型是由Robin Rombach和Patrick Esser开发的，基于潜在扩散模型（Latent Diffusion Model）技术。

模型概述

Stable Diffusion v1-5是在其前身v1-2的基础上进行了进一步的优化和训练。它经过了595,000步的训练，使用了512x512分辨率的图像和"laion-aesthetics v2 5+"数据集。为了提高模型的表现，研究人员在训练过程中引入了10%的文本条件丢弃技术，这有助于改善无分类器引导采样的效果。

主要特点

基于英语文本输入生成逼真的图像
支持512x512分辨率的图像生成
使用CLIP ViT-L/14作为预训练的文本编码器
采用CreativeML OpenRAIL-M许可证发布

使用方法

用户可以通过Hugging Face的Diffusers库轻松使用Stable Diffusion v1-5模型。以下是一个简单的Python代码示例：

from diffusers import StableDiffusionPipeline
import torch

pipe = StableDiffusionPipeline.from_pretrained(
    "benjamin-paine/stable-diffusion-v1-5",
    torch_dtype=torch.float16
)
pipe = pipe.to("cuda")

prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]  
    
image.save("astronaut_rides_horse.png")