相关项目
PixArt-sigma
PixArt-Σ是一个基于Diffusion Transformer的文本到图像生成模型。通过Weak-to-Strong训练方法,该模型支持4K分辨率生成,采用300长度T5 token和SDXL VAE。相比前代PixArt-α,PixArt-Σ具有更强的生成能力。项目提供开源代码、多种分辨率预训练权重、diffusers库集成支持和在线演示。
PixArt-Sigma-XL-2-1024-MS
PixArt-Sigma-XL-2-1024-MS是一款基于纯Transformer架构的潜在扩散模型,能够直接从文本生成高达4K分辨率的图像。该模型采用T5文本编码器和VAE潜在特征编码器,适用于艺术创作、设计和教育研究。尽管在生成照片级真实感和复杂构图方面仍有提升空间,但它为文本到图像生成领域带来了新的可能性。