项目介绍:Playground v2 – 1024px 美学模型
Playground v2 – 1024px 美学模型是一个用于生成高度美观图像的模型,图像分辨率为1024x1024像素。该模型可以通过Hugging Face 🧨 Diffusers使用。
模型概述
Playground v2是基于扩散的文本到图像生成模型,由Playground研究团队从零开始训练。根据Playground的用户研究,Playground v2生成的图像比Stable Diffusion XL生成的图像更受欢迎,受欢迎程度为后者的2.5倍。
团队非常高兴能够向社区发布不同训练阶段的中间检查点,包括评估指标,希望能够促进图像生成基础模型的进一步研究。此外,团队引入了一种新的基准——MJHQ-30K,用于自动评估模型的美学质量。
模型描述
- 开发者: Playground
- 模型类型: 基于扩散的文本到图像生成模型
- 许可证: Playground v2社区许可证
- 总结: 该模型基于文本提示生成图像。它是一个潜在扩散模型,使用两个固定的、预训练的文本编码器(OpenCLIP-ViT/G 和 CLIP-ViT/L)。其架构与Stable Diffusion XL相同。
如何使用模型与🧨 Diffusers
安装diffusers >= 0.24.0及其他依赖:
pip install transformers accelerate safetensors
使用模型的代码示例:
from diffusers import DiffusionPipeline
import torch
pipe = DiffusionPipeline.from_pretrained(
"playgroundai/playground-v2-1024px-aesthetic",
torch_dtype=torch.float16,
use_safetensors=True,
add_watermarker=False,
variant="fp16"
)
pipe.to("cuda")
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt=prompt, guidance_scale=3.0).images[0]
注意: 建议使用**guidance_scale=3.0
**。
用户研究
根据Playground进行的用户研究(涉及超过2600个提示和数千用户),Playground v2生成的图像比Stable Diffusion XL生成的图像更受欢迎,受欢迎程度为2.5倍。
在用户研究中,用户被指示根据(1)他们的美学偏好和(2)图像与文本的匹配度来评估图像对。
MJHQ-30K基准
Playground团队引入了一种新的基准,MJHQ-30K,用于自动评估模型的美学质量。该基准通过在高质量数据集上的FID计算来评估美学质量。
基准结果显示,Playground v2在整体FID以及所有类别FID上优于SDXL-1-0-refiner,尤其是在人物和时尚类别上。这与用户研究结果一致,表明人类偏好与MJHQ-30K基准的FID得分之间存在相关性。
中间基础模型
除了playground-v2-1024px-aesthetic,团队还向社区发布了不同训练阶段的中间检查点,以推动像素基础模型的研究。这里报告了在MSCOCO14评估集上的FID分数和CLIP分数供参考。
总结
Playground v2 – 1024px 美学模型不仅具备生成高质量图像的能力,还通过详细的用户研究和基准测试证明了其优越的性能。该项目的开放性和社区导向性将有助于推动图像生成领域的进一步发展和应用。希望这些工具和资源能被更广泛地应用于艺术创作、视觉设计等多个领域。