项目介绍:controlnet-scribble-sdxl-1.0
项目背景
controlnet-scribble-sdxl-1.0是一个强大的图像生成模型,能够生成与midjourney视觉效果相当的高分辨率图像。该模型通过对大量高质量数据(超过一千万幅图像)的训练,以及严谨的过滤和标注,具备了卓越的生成能力。此外,训练中应用了数据增广、多重损失以及多分辨率等实用技巧,使得模型的美学表现优于其他版本如Controlnet-Canny-Sdxl-1.0。
模型特点
- 适用广泛的线条类型:该模型支持任何类型、任何宽度的线条,草稿可以非常简单。
- 强大的控制能力:用户可以通过绘制精确的草图并提供详细的提示,对生成的图像进行细致入微的调整。
- 兼容线条和轮廓:除了随意的线条外,模型还支持线条画和轮廓(例如canny线),为用户提供了更多的创造可能。
使用示例
模型可以基于不同主题的提示生成各种风格的图像。例如:
- 描绘拥有星星般光点的紫色羽毛之鹰,展现神秘力量。
- 生成城市中滴水行销的动漫女孩形象。
- 创造一个具有幻想元素的现实风格17岁长发少女详细植物插图。
- 为名为District 7的油漆球场设计醒目而五彩缤纷的标志。
- 通过绘画自制的简单平面草图描绘玩球的小狐狸。
如何开始使用
为使用户能轻松上手,以下为基础代码示范:
from diffusers import ControlNetModel, StableDiffusionXLControlNetPipeline, AutoencoderKL
from diffusers import DDIMScheduler, EulerAncestralDiscreteScheduler
from controlnet_aux import PidiNetDetector, HEDdetector
from diffusers.utils import load_image
from huggingface_hub import HfApi
from pathlib import Path
from PIL import Image
import torch
import numpy as np
import cv2
import os
# 示例代码,如何加载模型,与生成图像的基础流程
...
images = pipe(
prompt,
negative_prompt=negative_prompt,
image=controlnet_img,
controlnet_conditioning_scale=controlnet_conditioning_scale,
width=new_width,
height=new_height,
num_inference_steps=30,
).images
images[0].save(f"your image save path, png format is usually better than jpg or webp in terms of image quality but got much bigger")
评估数据及结果
模型的测试数据来自midjourney的精细化图像和提示。共随机选择300组提示-图像对,并使用每个提示生成四幅图像,共1200幅图像。通过Laion美学评分和视觉相似性等量化指标来衡量生成图像的质量,结果表明该模型在美学评分上处于领先地位。
结论
通过这款模型,用户可以通过简单的草图和提示生成视觉上引人入胜的图像。模型支持多种类型和粗细的线条,使得从粗糙到精细的绘图过程更为流畅。与xinsir/controlnet-canny-sdxl-1.0相比,本模型在美学评分上有更高的表现,即使在控制能力上略有下降,但仍在可接受范围内。这为用户提供了创作精美图像的强大工具和全新体验。