Terminus XL Gamma 项目介绍
项目概述
Terminus XL Gamma 是一款最新的潜在扩散模型,采用的是零终端信噪比(SNR)噪声调度和速度预测目标进行训练和推理。它的架构基于 SDXL,布局结构相似,但步数较少,使用的则是通过 COCO 和 Midjourney 获取的高质量数据说明。尽管不如 SDXL 能生成多样的概念,但其目标在于使用最小 SNR gamma 损失,在单机 NVIDIA A100-80G 显卡上高效训练完整模型。
- 开发者: pseudoterminal X (@bghira)
- 赞助方: pseudoterminal X (@bghira)
- 模型类型: 潜在扩散
- 许可证: openrail++
- 架构: SDXL
使用场景
直接使用
Terminus XL Gamma 可以根据文本提示生成高质量的图像,特别适合于修复任务(inpainting)。零终端 SNR 噪声调度能更有效地保持图像的对比度。该模型可应用于创意行业,比如艺术、广告和娱乐,帮助创造视觉上吸引人的内容。
进一步使用
模型可以微调用于特定任务,比如图像超分辨率和风格迁移等。
非适用的使用
该模型并非设计用于图像生成以外的任务,不应用于产生有害内容或误导他人。
偏见、风险与限制
模型可能存在训练数据中的偏见,生成的图像应仔细检查以确保符合伦理和社会标准。用户需谨慎审视潜在偏见,并在使用前仔细审核生成的内容。
训练细节
训练数据
模型的成功主要依赖于数量较少但质量非常高的数据样本:
- LAION-HD,过滤到无水印的 EXIF 样本,样本亮度值上限到 100(0.5)。
- Midjourney 5.2 数据集
ptx0/mj-general
,无额外过滤。
训练过程
前处理遵循 SDXL 的预训练过程,使用裁剪的条件输入和中心裁剪的图像作为输入。从 512x512 开始训练,然后是 768x768,最后是约 100 万像素的多比例训练。图像按比例缩小并按 64 像素增量裁剪。许多比例被训练,但只有少数能够正常工作。
训练超参数
- 训练模式: bf16 混合精度
- 学习率: 从 (4 \times 10^{-7}) 到 (8 \times 10^{-7}),余弦调度
- 周期: 60
- 批处理大小: 24 * 15 = 360
技术规格
模型架构和目标
该模型使用的是与 SDXL 兼容的潜在扩散架构,带有独特的最小 SNR 增强速度目标。
计算基础设施
[更多信息待补充]
环境影响
- 硬件类型: [更多信息待补充]
- 使用小时数: [更多信息待补充]
- 云服务提供商: [更多信息待补充]
- 计算地区: [更多信息待补充]
- 碳排放量: [更多信息待补充]
总结
Terminus XL Gamma 是一款专注于高质量图像生成的潜在扩散模型,特别是对富有创意行业可以提供有力的支持,尽管在多样化概念生成方面存在一些局限性,但在特定任务应用中表现出色。使用过程中需注意潜在偏见和伦理审核。