StoryDiffusion: 用于长程图像和视频生成的一致性自注意力

[论文] [项目页面] [计图版本] [🤗 漫画生成演示] <br>

</div>

**StoryDiffusion: 用于长程图像和视频生成的一致性自注意力**的官方实现。

演示视频

https://github.com/HVision-NKU/StoryDiffusion/assets/49511209/d5b80f8f-09b0-48cd-8b10-daff46d422af

更新历史

您可以访问此处查看更新历史。

🌠 主要特点：

StoryDiffusion可以通过生成一致的图像和视频来创造一个神奇的故事。我们的工作主要包括两个部分：

用于长程序列中角色一致性图像生成的一致性自注意力。它可以热插拔，并与所有基于SD1.5和SDXL的图像扩散模型兼容。对于当前的实现，用户需要为一致性自注意力模块提供至少3个文本提示。我们建议至少提供5-6个文本提示以获得更好的布局安排。
用于长程视频生成的运动预测器，它在压缩的图像语义空间中预测条件图像之间的运动，实现更大的运动预测。

🔥 示例

漫画生成

图像到视频生成（结果为高度压缩以提高速度）

利用我们的一致性自注意力机制生成的图像，我们可以通过在这些图像之间平滑过渡来扩展过程以创建视频。这可以被视为一种两阶段长视频生成方法。

注意：结果为高度压缩以提高速度，您可以访问我们的网站获取高质量版本。

两阶段长视频生成（最新更新）

结合这两个部分，我们可以生成非常长且高质量的AIGC视频。

视频1	视频2	视频3
<img src="https://github.com/HVision-NKU/StoryDiffusion/assets/49511209/4e7e0f24-5f90-419b-9a1e-cdf36d361b26" width=224>	<img src="https://github.com/HVision-NKU/StoryDiffusion/assets/49511209/f509343d-d691-4e2a-b615-7d96381ef7c1" width=224>	<img src="https://github.com/HVision-NKU/StoryDiffusion/assets/49511209/4f0f7abb-4ae4-47a6-b692-5bdd8d9c8006" width=224>

使用条件图像的长视频结果

我们的图像到视频模型可以通过提供一系列用户输入的条件图像来生成视频。

视频1	视频2	视频3
<img src="https://github.com/HVision-NKU/StoryDiffusion/assets/49511209/af6f5c50-c773-4ef2-a757-6d7a46393f39" width=224>	<img src="https://github.com/HVision-NKU/StoryDiffusion/assets/49511209/d58e4037-d8df-4f90-8c81-ce4b6d2d868e" width=224>	<img src="https://github.com/HVision-NKU/StoryDiffusion/assets/49511209/40da15ba-f5c1-48d8-84d6-8d327207d696" width=224>
视频4	视频5	视频6
---	---	---
<img src="https://github.com/HVision-NKU/StoryDiffusion/assets/49511209/8f04c9fc-3031-49e3-9de8-83d582b80a1f" width=224>	<img src="https://github.com/HVision-NKU/StoryDiffusion/assets/49511209/604107fb-8afe-4052-bda4-362c646a756e" width=224>	<img src="https://github.com/HVision-NKU/StoryDiffusion/assets/49511209/b05fa6a0-12e6-4111-abf8-18b8cd84f3ff" width=224>

短视频

视频1	视频2	视频3
<img src="https://github.com/HVision-NKU/StoryDiffusion/assets/49511209/5e7f717f-daad-46f6-b3ba-c087bd843158" width=224>	<img src="https://github.com/HVision-NKU/StoryDiffusion/assets/49511209/79aa52b2-bf37-4c9c-8555-c7050aec0cdf" width=224>	<img src="https://github.com/HVision-NKU/StoryDiffusion/assets/49511209/9fdfd091-10e6-434e-9ce7-6d6e6d8f4b22" width=224>

视频4	视频5	视频6
<img src="https://github.com/HVision-NKU/StoryDiffusion/assets/49511209/0b219b60-a998-4820-9657-6abe1747cb6b" width=224>	<img src="https://github.com/HVision-NKU/StoryDiffusion/assets/49511209/d387aef0-ffc8-41b0-914f-4b0392d9f8c5" width=224>	<img src="https://github.com/HVision-NKU/StoryDiffusion/assets/49511209/3c64958a-1079-4ca0-a9cf-e0486adbc57f" width=224>

🚩 待办事项/更新

StoryDiffusion的漫画结果。
StoryDiffusion的视频结果。
漫画生成的源代码。
gradio演示的源代码。
视频生成模型的源代码。
视频生成模型的预训练权重。

🔧 依赖和安装

Python >= 3.8（推荐使用Anaconda或Miniconda）
PyTorch >= 2.0.0

conda create --name storydiffusion python=3.10
conda activate storydiffusion
pip install -U pip

# 安装依赖
pip install -r requirements.txt

使用方法

目前，我们提供两种生成漫画的方式。

使用Jupyter笔记本

你可以打开Comic_Generation.ipynb并运行代码。

启动本地gradio演示

运行以下命令：

**（推荐）**我们提供了一个低GPU内存消耗版本，它在一台具有24GB GPU内存（Tesla A10）和30GB RAM的机器上进行了测试，预计在>20GB GPU内存的环境中可以正常运行。

python gradio_app_sdxl_specific_id_low_vram.py

联系方式

如果你有任何问题，欢迎发送电子邮件至ypzhousdu@gmail.com和zhoudaquan21@gmail.com

免责声明

本项目致力于积极影响AI驱动的图像和视频生成领域。用户可以自由使用此工具创建图像和视频，但需遵守当地法律并负责任地使用。开发者对用户可能的滥用行为不承担任何责任。

BibTeX

如果你发现StoryDiffusion对你的研究和应用有用，请使用以下BibTeX进行引用：

@article{zhou2024storydiffusion,
  title={StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation},
  author={Zhou, Yupeng and Zhou, Daquan and Cheng, Ming-Ming and Feng, Jiashi and Hou, Qibin},
  journal={arXiv preprint arXiv:2405.01434},
  year={2024}
}