Lumina-T2X: 通过基于流的大规模扩散变换器将文本转换为任意模态、分辨率和持续时间
![intro_large](https://github.com/Alpha-VLLM/Lumina-T2X/assets/54879512/9f52eabb-07dc-4881-8257-6d8a5f2a0a5a)📰 新闻
-
[2024-08-06] 🎉🎉🎉 我们发布了 Lumina-mGPT,这是我们 Lumina 系列中下一代的生成模型!Lumina-mGPT 是一个自回归变换器,能够进行逼真的图像生成和其他视觉语言任务,例如可控生成、多轮对话、深度/法线/分割图估计等。
-
[2024-07-08] 🎉🎉🎉 Lumina-Next 现已在 diffusers 中得到支持!感谢 @yiyixuxu 和 @sayakpaul!HF 模型仓库。
-
[2024-06-26] 我们发布了使用
Lumina-Next-T2I
进行图像到图像转换的推理代码。代码 ComfyUI -
[2024-06-21] 🥰🥰🥰 Lumina-Next 现有用于推理的 Jupyter notebook,感谢 canenduru!链接
-
[2024-06-21] 我们已将
Lumina-Next-SFT
和Lumina-Next-T2I
上传至 wisemodel.cn。wisemodel 仓库 -
[2024-06-19] 我们发布了用于音乐生成的
Lumina-T2Audio
(文本到音频)代码和模型。模型 -
[2024-06-17] 🚀🚀🚀 我们在我们的 Lumina 框架中实现了 SD3 的推理和训练(包括 Dreambooth)支持!代码
-
[2024-06-08] 🚀🚀🚀 我们发布了
Lumina-Next-SFT
模型,展示了更好的视觉质量!模型 -
[2024-06-03] 我们发布了
Lumina-Next-T2I
的组合生成
版本,它能够使用多个描述为不同区域进行组合生成。模型 演示 -
[2024-05-29] 我们更新了新的
Lumina-Next-T2I
代码和HF 模型。支持 2K 分辨率图像生成和时间感知缩放 RoPE。 -
[2024-05-25] 我们发布了 Flag-DiT 和 Next-DiT 的训练脚本,并报告了 Next-DiT 和 Flag-DiT 之间的比较结果。比较结果
-
[2024-05-21] Lumina-Next-T2I 支持更高阶的求解器。它可以在仅 10 步内生成图像,无需任何蒸馏。试试我们的演示 演示。
-
[2024-05-18] 我们发布了 Lumina-T2I 5B 的训练脚本。说明
-
[2024-05-16] ❗❗❗ 我们已将
.pth
权重转换为.safetensors
权重。请拉取最新代码并使用demo.py
进行推理。 -
[2024-05-14] Lumina-Next 现在支持简单的文本到音乐生成(示例),基于文本条件的高分辨率(1024*4096)全景生成(示例),以及基于标签条件的3D 点云生成(示例)。
-
[2024-05-13] 我们给出了示例,展示了 Lumina-T2X 支持多语言提示的能力,甚至支持包含表情符号的提示。
-
[2024-05-12] 我们激动地发布了我们的
Lumina-Next-T2I
模型(检查点),它使用 2B Next-DiT 模型作为骨干网络,Gemma-2B 作为文本编码器。可以在 演示1 和 演示2 和 演示3 上试用。更多详情请参阅论文 Lumina-Next。 -
[2024-05-10] 我们在 arXiv 上发布了技术报告。
-
[2024-05-09] 我们发布了
Lumina-T2A
(文本到音频)演示。示例 -
[2024-04-29] 我们发布了 5B 模型检查点和基于它构建的文本到图像生成演示。
-
[2024-04-25] 支持任意宽高比的 720P 视频生成。示例
-
[2024-04-19] 发布了演示示例。
-
[2024-04-05] 发布了
Lumina-T2I
的代码。 -
[2024-04-01] 我们发布了
Lumina-T2I
的初始版本,用于文本到图像生成。
🚀 快速开始
[!警告] 由于我们经常更新代码,请拉取最新代码:
git pull origin main
快速演示
我们已经在 diffusers 中支持了 Lumina-Next。
[!注意] 在 diffusers 发布新版本之前,您应该安装 diffusers 的开发版本(
main
分支)。pip install git+https://github.com/huggingface/diffusers
您可以尝试以下代码:
from diffusers import LuminaText2ImgPipeline
import torch
pipeline = LuminaText2ImgPipeline.from_pretrained(
"/mnt/hdd1/xiejunlin/checkpoints/Lumina-Next-SFT-diffusers", torch_dtype=torch.bfloat16
).to("cuda")
image = pipeline(prompt="Upper body of a young woman in a Victorian-era outfit with brass goggles and leather straps. Background shows an industrial revolution ciyscape with smoky skies and tall, metal structures", height=1024, width=768).images[0]
有关 Lumina 框架的训练和推理的更多详细信息,请参阅 Lumina-T2I、Lumina-Next-T2I 和 Lumina-Next-T2I-Mini。我们强烈建议您使用 Lumina-Next-T2I-Mini 进行训练和推理,这是 Lumina-Next-T2I 的极度简化版本,具有完整功能。
GUI 演示
为了让您快速使用我们的模型,我们构建了不同版本的 GUI 演示站点。
Lumina-Next-T2I 模型演示:
图像组合生成:[节点1]
音乐生成:[节点1]
安装
将 Lumina-T2X
作为库使用,在您的环境中使用以下安装命令:
pip install git+https://github.com/Alpha-VLLM/Lumina-T2X
开发
如果您想为代码做出贡献,应运行以下命令安装 pre-commit
库:
git clone https://github.com/Alpha-VLLM/Lumina-T2X
cd Lumina-T2X
pip install -e ".[dev]"
pre-commit install
pre-commit
📑 开源计划
- Lumina-Text2Image (演示✅, 训练✅, 推理✅, 检查点✅, Diffusers✅)
- Lumina-Text2Video (演示✅)
- Lumina-Text2Music (演示✅, 推理✅, 检查点✅)
- Lumina-Text2Audio (演示✅, 推理✅, 检查点✅)
📜 目录
介绍
我们介绍 $\textbf{Lumina-T2X}$ 系列,这是一系列以文本为条件的扩散变换器(DiT),能够将文本描述转换为生动的图像、动态视频、详细的多视图 3D 图像和合成语音。Lumina-T2X 的核心是基于流的大型扩散变换器(Flag-DiT)——一个强大的引擎,支持高达 70 亿个参数并将序列长度扩展到 128,000 个标记。受 Sora 的启发,Lumina-T2X 将图像、视频、3D 对象的多视图和语音频谱图集成到空间-时间潜在标记空间中,并可以生成任何分辨率、宽高比和持续时间的输出。
🌟 特点:
- 基于流的大型扩散变换器(Flag-DiT): Lumina-T2X 采用流匹配公式,并配备了许多先进技术,如 RoPE、RMSNorm 和 KQ-norm,表现出更快的训练收敛、稳定的训练动态和简化的流程。
- 一个框架内的任何模态、分辨率和持续时间:
- $\textbf{Lumina-T2X}$ 可以将任何模态,包括图像、视频、3D 对象的多视图和频谱图编码成统一的 1-D 标记序列,具有任何分辨率、宽高比和时间持续时间。
- 通过引入
[nextline]
和[nextframe]
标记,我们的模型可以支持分辨率外推,即生成训练期间未遇到的域外分辨率的图像/视频,如从 768x768 到 1792x1792 像素的图像。
- 低训练资源: 我们的经验观察表明,使用更大的模型、高分辨率图像和更长持续时间的视频剪辑可以显著加快扩散变换器的收敛速度。此外,通过使用精心策划的文本-图像和文本-视频对(包含高美学质量的帧和详细的说明),我们的 $\textbf{Lumina-T2X}$ 模型学会以最少的计算需求生成高分辨率图像和连贯视频。值得注意的是,默认的 Lumina-T2I 配置,配备了 5B Flag-DiT 和 7B LLaMA 作为文本编码器,与 Pixelart-$\alpha$ 相比仅需要 35% 的计算资源。
📽️ 演示示例
Lumina-Next-SFT 的演示
视觉变位词的演示
Lumina-T2I 的演示
全景生成
文本到视频生成
720P 视频:
提示: 瀑布从悬崖上倾泻而下流入宁静湖泊的壮丽景象。
https://github.com/Alpha-VLLM/Lumina-T2X/assets/54879512/17187de8-7a07-49a8-92f9-fdb8e2f5e64c
https://github.com/Alpha-VLLM/Lumina-T2X/assets/54879512/0a20bb39-f6f7-430f-aaa0-7193a71b256a
提示: 一位时尚女性走在东京街头,街道上充满温暖发光的霓虹灯和动画城市标牌。她穿着黑色皮夹克、长红裙和黑色靴子,手提黑色手袋。她戴着太阳镜,涂着红色口红。她自信而随意地行走。街道潮湿有反光,形成五彩缤纷的灯光镜像效果。许多行人来来往往。
https://github.com/Alpha-VLLM/Lumina-T2X/assets/54879512/7bf9ce7e-f454-4430-babe-b14264e0f194
360P 视频:
https://github.com/Alpha-VLLM/Lumina-T2X/assets/54879512/d7fec32c-3655-4fd1-aa14-c0cb3ace3845
文本到 3D 生成
https://github.com/Alpha-VLLM/Lumina-T2X/assets/54879512/cd061b8d-c47b-4c0c-b775-2cbaf8014be9
点云生成
文本到音频生成
[!注意] 注意: 将鼠标悬停在播放栏上,点击播放栏上的音频按钮来取消静音。
提示: 半自动枪声带有轻微回音
生成的音频:
https://github.com/Alpha-VLLM/Lumina-T2X/assets/54879512/25f2a6a8-0386-41e8-ab10-d1303554b944
真实音频:
https://github.com/Alpha-VLLM/Lumina-T2X/assets/54879512/6722a68a-1a5a-4a44-ba9c-405372dc27ef
提示: 电话铃声响起
生成的音频:
https://github.com/Alpha-VLLM/Lumina-T2X/assets/54879512/7467dd6d-b163-4436-ac5b-36662d1f9ddf
真实音频:
https://github.com/Alpha-VLLM/Lumina-T2X/assets/54879512/703ea405-6eb4-4161-b5ff-51a93f81d013
提示: 引擎运转,接着引擎轰鸣和轮胎尖叫声
生成的音频: https://github.com/Alpha-VLLM/Lumina-T2X/assets/54879512/5d9dd431-b8b4-41a0-9e78-bb0a234a30b9
真实音频:
https://github.com/Alpha-VLLM/Lumina-T2X/assets/54879512/9ca4af9e-cee3-4596-b826-d6c25761c3c1
提示词: 鸟儿啾啾叫,昆虫嗡嗡响,户外环境音
生成的音频:
https://github.com/Alpha-VLLM/Lumina-T2X/assets/54879512/b776aacb-783b-4f47-bf74-89671a17d38d
真实音频:
https://github.com/Alpha-VLLM/Lumina-T2X/assets/54879512/a11333e4-695e-4a8c-8ea1-ee5b83e34682
文本到音乐生成
[!注意] 注意:将鼠标悬停在播放栏上,点击播放栏上的音频按钮取消静音。 更多详情请查看这里
提示词: 一首令人振奋的斯卡曲,有突出的萨克斯管即兴演奏,充满活力的电吉他和原声鼓,生动的打击乐,富有灵魂的键盘,律动感强的电贝司,以及快速的节奏,散发出令人振奋的能量。
生成的音乐:
https://github.com/Alpha-VLLM/Lumina-T2X/assets/86041420/fef8f6b9-1e77-457e-bf4b-fb0cccefa0ec
提示词: 一首高能量的合成器摇滚/流行歌曲,有快节奏的原声鼓,胜利的铜管/弦乐部分,以及令人兴奋的合成器主音,营造出冒险的氛围。
生成的音乐:
https://github.com/Alpha-VLLM/Lumina-T2X/assets/86041420/1f796046-64ab-44ed-a4d8-0ebc0cfc484f
提示词: 一首快节奏的电子流行歌曲,结合了电子鼓、电子贝司和合成器垫音。
生成的音乐:
https://github.com/Alpha-VLLM/Lumina-T2X/assets/86041420/4768415e-436a-4d0e-af53-bf7882cb94cd
提示词: 一首中等节奏的电子键盘歌曲,配有爵士风格的伴奏,包括电子鼓、钢琴、电贝司、小号和原声吉他。
生成的音乐:
https://github.com/Alpha-VLLM/Lumina-T2X/assets/86041420/8994a573-e776-488b-a86c-4398a4362398
提示词: 这首低质量的民谣歌曲有律动感十足的木质打击乐、贝司、钢琴和长笛旋律,以及持续的弦乐和闪烁的沙锤声,营造出热情、欢快和愉悦的氛围。
生成的音乐:
https://github.com/Alpha-VLLM/Lumina-T2X/assets/86041420/e0b5d197-589c-47d6-954b-b9c1d54feebb
多语言生成
我们展示了Lumina-Next-2B的三种多语言能力。
根据中国古诗生成图像:
使用多语言提示词生成图像:
使用表情符号生成图像:
⚙️ 多样化配置
我们支持多样化的配置,包括文本编码器、不同参数规模的DiT、推理方法和VAE编码器。此外,我们还提供了1D-RoPE、图像增强等功能。
贡献者
代码开发和维护的核心成员:
刘东阳、卓乐、谢俊林、杜若伊、高鹏
📄 引用
@article{gao2024lumina-next,
title={Lumina-Next: Making Lumina-T2X Stronger and Faster with Next-DiT},
author={Zhuo, Le and Du, Ruoyi and Han, Xiao and Li, Yangguang and Liu, Dongyang and Huang, Rongjie and Liu, Wenze, others},
journal={arXiv preprint arXiv:2406.18583},
year={2024}
}
@article{gao2024lumin-t2x,
标题={Lumina-T2X:通过基于流的大型扩散变换器将文本转换为任何模态、分辨率和持续时间},
作者={高鹏和卓乐和刘克里斯和杜若依和罗旭和邱龙天和张宇航和其他人},
期刊={arXiv预印本 arXiv:2405.05945},
年份={2024}
}