Lumina-T2X 项目介绍
引言
Lumina-T2X 是一个先进的文本生成系统,该项目通过 Flow-based 大型扩散 Transformers 转换文本为多种形态、分辨率和持续时间的输出,包括图像、视频、3D 视图和合成语音。Lumina-T2X 的核心是 Flow-based Large Diffusion Transformer (Flag-DiT),支持高达 70 亿参数,以及长达 128,000 个 token 的序列长度。此系统将不同模态的数据整合到一个统一的空间-时间潜在 token 空间中,无论是分辨率、长宽比还是持续时间,都能够生成相应的输出。
主要特征
- 流动式大型扩散转换器 (Flag-DiT): 集成了 RoPE、RMSNorm 和 KQ-norm 等先进技术,实现更快的训练收敛、更稳定的训练动态和简化的流程。
- 支持多种模态、分辨率和持续时间:Lumina-T2X 可以将图像、视频、3D 对象的多视图以及语音谱图编码为任何分辨率、长宽比和持续时间的统一 1D token 序列。
- 低训练资源:通过使用大模型、高分辨率图像和长时视频片段,加速了扩散转换器的收敛速度。Lumina-T2I 的默认配置仅需 Pixelart-α 计算资源的 35%。
Demo 示例
该项目的功能通过多种形式的 Demo 进行展示:
- 图像生成:提供了多节点图像生成的 GUI 演示。
- 构图生成:支持不同区域多字幕的构图生成。
- 音乐生成:支持文本生成音乐的演示。
- 多语言生成:如中文诗句生成图像、多语言提示生成和使用表情符号生成的能力示例。
快速上手
通过简单的命令可以快速上手 Lumina-Next 模型,例如:
from diffusers import LuminaText2ImgPipeline
import torch
pipeline = LuminaText2ImgPipeline.from_pretrained("Lumina-Next-SFT-diffusers", torch_dtype=torch.bfloat16).to("cuda")
image = pipeline(prompt="年轻女士在维多利亚时代服饰下的上半身,背景是工业革命城市景观").images[0]
开发与安装
支持多种配置,包括不同参数规模的 DiT 模型、推理方法和 VAE 编码器。可通过以下命令安装 Lumina-T2X:
pip install git+https://github.com/Alpha-VLLM/Lumina-T2X
若希望参与代码贡献,需安装 pre-commit
库:
git clone https://github.com/Alpha-VLLM/Lumina-T2X
cd Lumina-T2X
pip install -e ".[dev]"
pre-commit install
pre-commit
开放源码计划
该项目致力于支持不同类型的生成任务,包括 Lumina-Text2Image、Lumina-Text2Video、Lumina-Text2Music 和 Lumina-Text2Audio。
结语
Lumina-T2X 的开发团队包括多位核心成员,他们在项目的开发和维护中发挥了重要作用,并准备与更多贡献者共同推进项目的发展。请参考项目中的代码与演示,体验 Lumina-T2X 在多模态生成方面的强大能力。