TIPO-500M - 增强文本到图像生成模型的性能与用户体验

TIPO-500M项目介绍

项目概述

TIPO-500M项目是一个创新的框架，名为TIPO（即Text to Image with text presampling for Prompt Optimization），旨在显著提升文本到图像（T2I）生成模型的质量和可用性。通过在文本到图像生成模型的推理流程中利用大型语言模型（LLMs）进行“文本预采样”，TIPO能够改进和扩展用户的输入提示，从而使生成模型仅需用户进行最小的操作便能生产出优秀的结果。该框架使得文本到图像系统对更多用户更为易用和高效。

使用方法

可以通过使用更新版本的DTG扩展（现已重命名为z-tipo-extension）来操作。当前版本的z-tipo-extension支持stable-diffusion-webui、stable-diffusion-webui-forge和ComfyUI。需要注意的是，SD-Next还尚未进行测试。详细信息可以在GitHub获取：z-tipo-extension。

模型架构与训练

TIPO-500M模型使用LLaMA架构构建，拥有200M参数，本次训练数据结合了Danbooru2023和Coyo-HD-11M版本，真实被看的token总量约为50B。详细的技术报告请参阅TIPO的技术报告。

不同版本比较

	TIPO-200M	TIPO-200M-ft	TIPO-500M
架构	LLaMA	LLaMA	LLaMA
最大上下文长度	1024	1024	1024
批大小	2048	2048	3584
训练数据集	Danbooru, GBC10M, 5次迭代	Danbooru(pixtral), Coyo11M, 2次迭代	Danbooru, GBC10M, Coyo11M, 5次迭代
真实被看token数量	40B token	50B (比TIPO-200M多10B)	30B token
训练硬件	RTX 3090 x 4	RTX 3090 x 4	H100 x 8
训练时间	420小时`	120小时`	100小时`