Project Icon

t2i-adapter-lineart-sdxl-1.0

文本与线条艺术的融合应用

T2I Adapter引入线条艺术条件,为StableDiffusionXL模型增强文本到图像生成功能。该项目由腾讯ARC和Hugging Face合作开发,专业处理复杂图像造型和结构。通过Apache 2.0许可证分发,便于集成与扩展。模型的条件设置挖掘更多可控能力,增加艺术与AI图像生成的创意。GitHub库和相关论文提供完整指南和示例,适合开发者与研究人员。

t2i-adapter-lineart-sdxl-1.0 项目介绍

项目背景

T2I Adapter 是一个为稳定扩散模型提供附加条件输入的网络。该项目名为“t2i-adapter-lineart-sdxl-1.0”,专注于利用线稿形式的条件输入来生成图像。它的基础模型是稳定扩散 XL 基础版1.0,由腾讯 ARC 和 Hugging Face 联合开发。

模型详情

  • 开发者: T2I-Adapter 由一组学者和开发人员创建,旨在为文本到图像的扩散模型挖掘更多可控能力。
  • 模型类型: 基于扩散的文本到图像生成模型。
  • 使用语言: 英语。
  • 许可证: Apache 2.0。
  • 更多资源: 可查阅该项目的 GitHub 仓库学术论文

模型复杂度

模型的复杂度通过参数的数量得以表现:

类型参数数量
SD-V1.4/1.5860M
SD-XL2.6B
T2I-Adapter77M
T2I-Adapter-SDXL77/79M

Checkpoints

t2i-adapter-lineart-sdxl-1.0 是其中一个关键的检查点,该模型是通过线稿边缘检测进行训练的。下表列出了一些相关的模型及其特性:

模型名称控制图像概览控制图像示例生成图像示例
TencentARC/t2i-adapter-lineart-sdxl-1.0手绘单色线稿Control ImageGenerated Image

使用示范

以下是如何使用 t2i-adapter-lineart-sdxl-1.0 生成图像的简单示例。

依赖安装

要开始使用,首先需要安装一些必要的依赖库:

pip install -U git+https://github.com/huggingface/diffusers.git
pip install -U controlnet_aux==0.0.7
pip install transformers accelerate safetensors

代码示例

以下代码将展示如何通过线稿模型生成一个图像:

from diffusers import StableDiffusionXLAdapterPipeline, T2IAdapter, EulerAncestralDiscreteScheduler, AutoencoderKL
from controlnet_aux.lineart import LineartDetector
import torch

# 加载适配器
adapter = T2IAdapter.from_pretrained(
  "TencentARC/t2i-adapter-lineart-sdxl-1.0", torch_dtype=torch.float16, varient="fp16"
).to("cuda")

# 配置其他组件
model_id = 'stabilityai/stable-diffusion-xl-base-1.0'
euler_a = EulerAncestralDiscreteScheduler.from_pretrained(model_id, subfolder="scheduler")
vae=AutoencoderKL.from_pretrained("madebyollin/sdxl-vae-fp16-fix", torch_dtype=torch.float16)
pipe = StableDiffusionXLAdapterPipeline.from_pretrained(
    model_id, vae=vae, adapter=adapter, scheduler=euler_a, torch_dtype=torch.float16, variant="fp16", 
).to("cuda")

line_detector = LineartDetector.from_pretrained("lllyasviel/Annotators").to("cuda")
  • 条件图像

我们利用线稿检测工具来准备条件图像:

url = "https://huggingface.co/Adapter/t2iadapter/resolve/main/figs_SDXLV1.0/org_lin.jpg"
image = load_image(url)
image = line_detector(image, detect_resolution=384, image_resolution=1024)
  • 生成图像

设定提示词进行图像生成:

prompt = "Ice dragon roar, 4k photo"
negative_prompt = "anime, cartoon, graphic, text, painting, crayon, graphite, abstract, glitch, deformed, mutated, ugly, disfigured"
gen_images = pipe(
    prompt=prompt,
    negative_prompt=negative_prompt,
    image=image,
    num_inference_steps=30,
    adapter_conditioning_scale=0.8,
    guidance_scale=7.5, 
).images[0]
gen_images.save('out_lin.png')

训练信息

该模型是在 3M 高分辨率图像-文本对上进行训练的,具体配置如下:

  • 训练步数: 20000
  • 批处理大小: 单 GPU 批处理大小为 16,总批处理大小为 256。
  • 学习率: 固定为 1e-5
  • 使用 mixed precision: fp16

t2i-adapter-lineart-sdxl-1.0 提供了更可控的图像生成能力,为用户带来了高效且多样化的创作体验。

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号