TIPO-500M项目介绍
项目概述
TIPO-500M项目是一个创新的框架,名为TIPO(即Text to Image with text presampling for Prompt Optimization),旨在显著提升文本到图像(T2I)生成模型的质量和可用性。通过在文本到图像生成模型的推理流程中利用大型语言模型(LLMs)进行“文本预采样”,TIPO能够改进和扩展用户的输入提示,从而使生成模型仅需用户进行最小的操作便能生产出优秀的结果。该框架使得文本到图像系统对更多用户更为易用和高效。
使用方法
可以通过使用更新版本的DTG扩展(现已重命名为z-tipo-extension)来操作。当前版本的z-tipo-extension支持stable-diffusion-webui、stable-diffusion-webui-forge和ComfyUI。需要注意的是,SD-Next还尚未进行测试。详细信息可以在GitHub获取:z-tipo-extension。
模型架构与训练
TIPO-500M模型使用LLaMA架构构建,拥有200M参数,本次训练数据结合了Danbooru2023和Coyo-HD-11M版本,真实被看的token总量约为50B。详细的技术报告请参阅TIPO的技术报告。
不同版本比较
TIPO-200M | TIPO-200M-ft | TIPO-500M | |
---|---|---|---|
架构 | LLaMA | LLaMA | LLaMA |
最大上下文长度 | 1024 | 1024 | 1024 |
批大小 | 2048 | 2048 | 3584 |
训练数据集 | Danbooru, GBC10M, 5次迭代 | Danbooru(pixtral), Coyo11M, 2次迭代 | Danbooru, GBC10M, Coyo11M, 5次迭代 |
真实被看token数量 | 40B token | 50B (比TIPO-200M多10B) | 30B token |
训练硬件 | RTX 3090 x 4 | RTX 3090 x 4 | H100 x 8 |
训练时间 | 420小时` | 120小时` | 100小时` |
模型评估
TIPO的评估主要是基于TIPO-200M模型进行的,并与其他模型在多个测试和指标上进行了比较:
风景标签测试
此测试使用单个“风景”标签作为输入,以评估各个提示生成方法是否能够保持图像质量的同时,得到期望的输出分布。
风景标签测试 | 原始 | GPT4o-mini | Prompt DB | Promptis | TIPO(ours) |
---|---|---|---|---|---|
FDD ↓ | 0.3558 | 0.5414 | 0.3247 | 0.2350 | 0.2282 |
Aesthetic ↑ | 5.0569 | 6.3676 | 6.1609 | 5.9468 | 6.2571 |
AI Corrupt ↑ | 0.4257 | 0.7490 | 0.5024 | 0.5669 | 0.9195 |
短/截断长文本测试
该测试使用短标题或从GBC10M和CoyoHD11M手动截断的标题,以检验提示生成方法处理几乎完成提示的能力。
短文本 | 原始 | GPT4o-mini | Prompt DB | Promptis | TIPO(ours) |
---|---|---|---|---|---|
FDD ↓ | 0.0957 | 0.1668 | 0.0980 | 0.1783 | 0.1168 |
Aesthetic ↑ | 5.8370 | 6.0589 | 5.8213 | 5.7963 | 5.8531 |
AI Corrupt ↑ | 0.7113 | 0.6985 | 0.7064 | 0.6314 | 0.7131 |
截断长文本 | 原始 | GPT4o-mini | Prompt DB | Promptis | TIPO(ours) |
---|---|---|---|---|---|
FDD ↓ | 0.0955 | 0.1683 | 0.1247 | 0.2096 | 0.1210 |
Aesthetic ↑ | 5.7497 | 6.0168 | 5.8191 | 5.7759 | 5.8364 |
AI Corrupt ↑ | 0.6868 | 0.6712 | 0.6741 | 0.5925 | 0.7130 |
许可证
该模型根据Kohaku License 1.0发布。详细信息可在提供的网址或仓库中的LICENSE文件中查看。