Lumina-T2X - Lumina-T2X项目：多模态文本转换的流式扩散模型

Lumina-T2X 项目介绍

引言

Lumina-T2X 是一个先进的文本生成系统，该项目通过 Flow-based 大型扩散 Transformers 转换文本为多种形态、分辨率和持续时间的输出，包括图像、视频、3D 视图和合成语音。Lumina-T2X 的核心是 Flow-based Large Diffusion Transformer (Flag-DiT)，支持高达 70 亿参数，以及长达 128,000 个 token 的序列长度。此系统将不同模态的数据整合到一个统一的空间-时间潜在 token 空间中，无论是分辨率、长宽比还是持续时间，都能够生成相应的输出。

主要特征

流动式大型扩散转换器 (Flag-DiT): 集成了 RoPE、RMSNorm 和 KQ-norm 等先进技术，实现更快的训练收敛、更稳定的训练动态和简化的流程。
支持多种模态、分辨率和持续时间：Lumina-T2X 可以将图像、视频、3D 对象的多视图以及语音谱图编码为任何分辨率、长宽比和持续时间的统一 1D token 序列。
低训练资源：通过使用大模型、高分辨率图像和长时视频片段，加速了扩散转换器的收敛速度。Lumina-T2I 的默认配置仅需 Pixelart-α 计算资源的 35%。

Demo 示例

该项目的功能通过多种形式的 Demo 进行展示：

图像生成：提供了多节点图像生成的 GUI 演示。
构图生成：支持不同区域多字幕的构图生成。
音乐生成：支持文本生成音乐的演示。
多语言生成：如中文诗句生成图像、多语言提示生成和使用表情符号生成的能力示例。

快速上手

通过简单的命令可以快速上手 Lumina-Next 模型，例如：

from diffusers import LuminaText2ImgPipeline
import torch

pipeline = LuminaText2ImgPipeline.from_pretrained("Lumina-Next-SFT-diffusers", torch_dtype=torch.bfloat16).to("cuda")

image = pipeline(prompt="年轻女士在维多利亚时代服饰下的上半身，背景是工业革命城市景观").images[0]

开发与安装

支持多种配置，包括不同参数规模的 DiT 模型、推理方法和 VAE 编码器。可通过以下命令安装 Lumina-T2X：

pip install git+https://github.com/Alpha-VLLM/Lumina-T2X

若希望参与代码贡献，需安装 pre-commit 库：

git clone https://github.com/Alpha-VLLM/Lumina-T2X
cd Lumina-T2X
pip install -e ".[dev]"
pre-commit install
pre-commit

开放源码计划

该项目致力于支持不同类型的生成任务，包括 Lumina-Text2Image、Lumina-Text2Video、Lumina-Text2Music 和 Lumina-Text2Audio。

结语

Lumina-T2X 的开发团队包括多位核心成员，他们在项目的开发和维护中发挥了重要作用，并准备与更多贡献者共同推进项目的发展。请参考项目中的代码与演示，体验 Lumina-T2X 在多模态生成方面的强大能力。