FIFO-Diffusion_public - 文本驱动的无限长度视频生成技术

FIFO-扩散：无需训练即可从文本生成无限长视频

💾 显存 < 10GB 🚀 无限长视频 ⭐️ 无需微调

📽️ 在我们的项目页面查看更多视频样例！

"一位宇航员漂浮在太空中，高质量，4K分辨率。"，

VideoCrafter2，100帧，320 X 512分辨率

"一只柯基在热带茂宜岛自拍视频。"

Open-Sora Plan，512 X 512分辨率

新闻 📰

[2024.06.06] 🔥🔥🔥 我们很高兴发布Open-Sora Plan v1.1.0的代码。感谢作者开源这个优秀的基线！

[2024.05.25] 🥳🥳🥳 我们很兴奋地展示FIFO-扩散的官方PyTorch实现。我们正在发布基于VideoCrafter2的代码。

[2024.05.19] 🚀🚀🚀 我们的论文《FIFO-扩散：无需训练即可从文本生成无限视频》已存档。

克隆我们的仓库

git clone git@github.com:jjihwan/FIFO-Diffusion_public.git
cd FIFO-Diffusion_public

☀️ 从VideoCrafter开始

1. 环境设置 ⚙️ (推荐python==3.10.14)

python3 -m venv .fifo
source .fifo/bin/activate

pip install -r requirements.txt

2.1 从Hugging Face🤗下载模型

模型	分辨率	检查点
VideoCrafter2 (文本到视频)	320x512	Hugging Face

2.2 设置文件结构

按以下结构存储：

cd FIFO-Diffusion_public
    .
    └── videocrafter_models
        └── base_512_v2
            └── model.ckpt      # VideoCrafter2检查点

3.1. 使用VideoCrafter2运行（单GPU）

使用Titan XP需要不到9GB显存。

python3 videocrafter_main.py --save_frames

3.2. 使用VideoCrafter2进行分布式并行推理（多GPU）

可能比单GPU推理消耗稍多内存（使用Titan XP需要11GB）。请注意，我们的并行推理实现可能不是最优的。欢迎提交拉取请求！🤓

python3 videocrafter_main_mp.py --num_gpus 8 --save_frames

3.3. 多提示生成

即将推出。

☀️ 从Open-Sora Plan v1.1.0开始

为简化实现，我们对Open-Sora Plan v1.1.0使用DDPM调度器。由于Open-Sora Plan推荐使用PNDM调度器，结果可能不会显示最佳性能。多进程（可并行化推理）和适配PNDM调度器是我们的下一个计划。

1. 环境设置 ⚙️ (推荐python==3.10.14)

cd FIFO-Diffusion_public
git clone git@github.com:PKU-YuanGroup/Open-Sora-Plan.git

python -m venv .sora
source .sora/bin/activate

cd Open-Sora-Plan
pip install -e .

pip install deepspeed

2. 使用Open-Sora Plan v1.1.0运行，65x512x512模型

使用A6000需要约40GB显存。默认使用n=8。

sh scripts/opensora_fifo_65.sh

3. 使用Open-Sora Plan v1.1.0运行，221x512x512模型

使用A6000需要约40GB显存。默认使用n=4。

sh scripts/opensora_fifo_221.sh

4. 使用Open-Sora Plan进行分布式并行推理（进行中）

即将推出。

Star历史

😆 引用

@article{kim2024fifo,
	title = {FIFO-Diffusion: Generating Infinite Videos from Text without Training},
	author = {Jihwan Kim and Junoh Kang and Jinyoung Choi and Bohyung Han},
	journal = {arXiv preprint arXiv:2405.11473},
	year = {2024},
}

🤓 致谢

我们的代码库基于VideoCrafter、Open-Sora Plan和zeroscope构建。感谢作者们分享他们优秀的代码库！