项目概述
sd-vae-ft-ema是一个经过改进的Stable Diffusion自动编码器项目。该项目主要对原始的kl-f8自动编码器进行了微调,旨在提升图像重建质量,特别是在人脸重建方面取得了显著改进。
技术特点
这个项目提供了两个经过微调的自动编码器版本:
- ft-EMA版本:在原始模型基础上训练了31万多步,采用EMA权重,使用L1和LPIPS作为损失函数
- ft-MSE版本:在ft-EMA基础上继续训练了28万步,更加注重MSE重建损失(MSE + 0.1 * LPIPS),能够产生更平滑的输出效果
训练数据
项目使用了两个主要数据集进行训练:
- LAION-Aesthetics数据集
- LAION-Humans数据集(未公开发布的人类图像子集) 这种数据集的组合旨在既保持原有的图像重建能力,又能提升对人脸细节的处理效果。
性能评估
通过在COCO 2017和LAION-Aesthetics数据集上的测试,改进版本展现出了优异的性能:
- 在COCO数据集上,ft-EMA模型的rFID指标从4.99提升到4.42
- 在LAION-Aesthetics数据集上,rFID指标从2.61大幅提升到1.77
- 各项图像质量指标(PSNR、SSIM、PSIM)都有不同程度的提升
实际应用
这个改进的自动编码器可以无缝集成到现有的Diffusers工作流程中。开发者只需要在创建StableDiffusionPipeline时指定vae参数即可使用。通过简单的代码配置,就能获得更好的图像重建效果。
兼容性说明
为了保持与现有模型的兼容性,项目仅对解码器部分进行了微调。这意味着用户可以将其作为即插即用的组件,轻松替换原有的自动编码器,而不需要对整个工作流程做出大的改变。
技术优势
该项目最大的优势在于:
- 提供了更好的图像重建质量
- 特别改善了人脸重建效果
- 保持了与现有系统的兼容性
- 提供了两种不同特点的版本供选择
- 完整的性能评估数据支持