Project Icon

taesd

轻量级自动编码器:高速解码Stable Diffusion潜在空间

TAESD是一款小巧的自动编码器,采用与Stable Diffusion VAE相同的潜在API。它能高效地将Stable Diffusion潜在空间解码为全尺寸图像。TAESD兼容SD1/2、SDXL、SD3和FLUX.1等多种模型,已整合到主流AI绘画工具中。该工具适用于实时预览图像生成过程和替代官方VAE的场景。尽管在细节还原方面稍有欠缺,TAESD通过轻微的质量损失换取了显著的速度和便利性提升。

🍰 Stable Diffusion的微型自编码器

什么是TAESD?

TAESD是一个非常小的自编码器,它使用与Stable Diffusion的VAE*相同的"潜在API"。TAESD可以以(几乎)零成本将Stable Diffusion的潜在表示解码为全尺寸图像。以下是在我的笔记本电脑上的对比:

TAESD与基于SD1/2的模型兼容(使用taesd_*权重)。

TAESD也与基于SDXL的模型(使用taesdxl_*权重)、基于SD3的模型(使用taesd3_*权重)和基于FLUX.1的模型(使用taef1_*权重)兼容。

我在哪里可以获得TAESD?

我可以将TAESD用于什么?

由于TAESD非常快,你可以使用TAESD实时观看Stable Diffusion的图像生成进度。这里有一个最小的示例笔记本,为🧨 Diffusers实现的SD2.1添加了TAESD预览功能。

由于TAESD包含一个编码器,你可以将TAESD用于官方VAE不方便的任何任务。请注意,TAESD使用的缩放约定与官方VAE不同(TAESD期望图像值在[0, 1]范围内,而不是[-1, 1],并且TAESD的潜在表示的"scale_factor"为1,而不是某个小数)。这里有一个示例笔记本展示了如何使用TAESD进行编码/解码。

TAESD是如何工作的?

TAESD是Stable Diffusion的VAE*的一个微型蒸馏版本,它由一个编码器和一个解码器组成。编码器将全尺寸图像转换为小型"潜在"图像(48倍有损压缩),然后解码器通过创造新细节,基于编码的潜在表示生成新的全尺寸图像。

原始/解码后的图像形状为3xHxW,值大约在[0, 1]范围内,潜在表示的形状为4x(H/8)x(W/8),值大约在[-3, 3]范围内。你可以将TAESD潜在表示裁剪并量化为8位PNG,而不会损失太多质量。TAESD潜在表示应该看起来很像Stable Diffusion的潜在表示。

在内部,TAESD是一堆Conv+ReLU残差块和2倍上采样层:

TAESD有什么局限性?

如果你想解码详细、高质量的图像,并且不在意花费多长时间,你应该直接使用原始SD VAE*解码器(或可能使用OpenAI的Consistency Decoder)。TAESD非常小,试图非常快速地工作,所以它倾向于模糊细节。例如:

TAESD以(适度的)质量损失换取(显著的)速度和便利性提升。

对比表

SD VAE*TAESD
编码器参数34,163,5921,222,532
解码器参数49,490,1791,222,531
ONNX算子Add, Cast, Concat, Constant, ConstantOfShape, Conv, Div, Gather, InstanceNormalization, MatMul, Mul, Pad, Reshape, Resize, Shape, Sigmoid, Slice, Softmax, Transpose, UnsqueezeAdd, Constant, Conv, Div, Mul, Relu, Resize, Tanh
运行时/内存随潜在表示大小线性缩放
有界感受野,所以你可以将解码工作分割成瓦片而不会出现奇怪的接缝等问题 (编辑:但你仍需要足够的瓦片重叠来覆盖TAESD的有界感受野...所以实际上,我仍不推荐分瓦片解码 :P)
高质量细节
微型

* VQGAN?AutoencoderKL?first_stage_model就是这个东西。

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号