Project Icon

karlo-v1-alpha

文本驱动的超分辨率图像生成

Karlo v1 alpha利用OpenAI的unCLIP架构实现文本条件下的图像生成。通过改进的超分辨率模块,该模型在有限的去噪步骤中将图像分辨率从64px提升至256px。Karlo在COYO-100M、CC3M和CC12M等数据集上训练,具备优良的图像生成效果,并采用前置、解码及超分辨率模块实现高效处理。还支持生成图像变化,丰富视觉体验。

Karlo v1 Alpha 项目介绍

项目背景

Karlo v1 Alpha 是一个由 OpenAI 的 unCLIP 架构衍生出的文本生成图像模型。与标准的超分辨率模型相比,Karlo 凭借创新技术将图像分辨率从 64px 提升到了 256px,仅需少量去噪步骤即可复原高频细节。项目的原始代码仓库可在 这里 找到。

使用方法

Karlo v1 Alpha 支持 diffusers,用户可以方便地使用如下命令进行安装:

pip install diffusers transformers accelerate safetensors

文本生成图像

在这一部分中,用户可以通过输入一段描述性的文本,生成相应的高分辨率图像:

from diffusers import UnCLIPPipeline
import torch

pipe = UnCLIPPipeline.from_pretrained("kakaobrain/karlo-v1-alpha", torch_dtype=torch.float16)
pipe = pipe.to('cuda')

prompt = "a high-resolution photograph of a big red frog on a green leaf."

image = pipe([prompt]).images[0]

image.save("./frog.png")

生成的图像将保存为 frog.png,如下示例所示:

高分辨率青蛙图片示例

图像变体

Karlo 还支持根据现有图像生成其变体:

from diffusers import UnCLIPImageVariationPipeline
import torch
from PIL import Image

pipe = UnCLIPImageVariationPipeline.from_pretrained("kakaobrain/karlo-v1-alpha-image-variations", torch_dtype=torch.float16)
pipe = pipe.to('cuda')

image = Image.open("./frog.png")

image = pipe(image).images[0]

image.save("./frog-variation.png")

通过上述代码生成的变体图像将保存为 frog-variation.png,如示例所示:

青蛙图片变体示例

模型架构

概述

Karlo 模型为基于 unCLIP 的文本条件扩散模型,由先验、解码器和超分辨率模块组成。在这一实现中,提高后的标准超分辨率模块能够在七步反向操作中,将64px 图像放大到 256px:

模型架构示意图

其中,标准的 SR 模块通过 DDPM 目标在前六步去噪过程中使用重新调序技术,从 64px 放大到 256px。经过 VQ-GAN-风格损失的微调,额外的 SR 模块在最后一步恢复高频细节。

详细信息

模型的所有组件均从头开始训练,使用包含 COYO-100M、CC3M 和 CC12M 合计 115M 的图像-文本对。先验和解码器部分使用 OpenAI 的 CLIP 仓库 提供的 ViT-L/14。与原版 unCLIP 实现不同的是,解码器中的可训练 Transformer 被 ViT-L/14 的文本编码器所替代,从而提升效率。

模型统计
模块参数数量优化步骤数采样步骤数
先验10 亿100 万次25 次
解码器9 亿100 万次默认 50 次,快速 25 次
超分辨率7 亿 + 7 亿100 万 + 23.4 万次7 次

模型的训练采用 COYO-100M、CC3M、CC12M 等合计 115M 的图像-文本对。

模型评估

Karlo v1 Alpha 在 CC3M 和 MS-COCO 的验证集中进行定量测评。结果如下:

CC3M

采样步骤CLIP-s (ViT-B/16)FID (13k val)
先验 (25) + 解码器 (25) + SR (7)0.308114.37
先验 (25) + 解码器 (50) + SR (7)0.308613.95

MS-COCO

采样步骤CLIP-s (ViT-B/16)FID (30k val)
先验 (25) + 解码器 (25) + SR (7)0.319215.24
先验 (25) + 解码器 (50) + SR (7)0.319214.43

机型通过分别使用 CLIP-score 和 FID 进行性能评估,显示出不俗的表现。

训练详情

Karlo 的 Alpha 版本训练于总计 115M 的图像-文本对,包括 COYO-100M 的高质量子集、CC3M 和 CC12M 等。如需以更大规模高质量数据集进行训练的 Karlo 版本信息,请访问 B^DISCOVER

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计 是一个多功能的在线设计和创意平台,提供广泛的设计工具和资源,以满足不同用户的需求。从专业的图形设计师到普通用户,无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑,稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合,帮助用户轻松实现创意设计。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号