FIFO-扩散:无需训练即可从文本生成无限长视频
📽️ 在我们的项目页面查看更多视频样例!
"一位宇航员漂浮在太空中,高质量,4K分辨率。",
VideoCrafter2,100帧,320 X 512分辨率
"一只柯基在热带茂宜岛自拍视频。"
Open-Sora Plan,512 X 512分辨率
新闻 📰
[2024.06.06] 🔥🔥🔥 我们很高兴发布Open-Sora Plan v1.1.0的代码。感谢作者开源这个优秀的基线!
[2024.05.25] 🥳🥳🥳 我们很兴奋地展示FIFO-扩散的官方PyTorch实现。我们正在发布基于VideoCrafter2的代码。
[2024.05.19] 🚀🚀🚀 我们的论文《FIFO-扩散:无需训练即可从文本生成无限视频》已存档。
克隆我们的仓库
git clone git@github.com:jjihwan/FIFO-Diffusion_public.git
cd FIFO-Diffusion_public
☀️ 从VideoCrafter开始
1. 环境设置 ⚙️ (推荐python==3.10.14)
python3 -m venv .fifo
source .fifo/bin/activate
pip install -r requirements.txt
2.1 从Hugging Face🤗下载模型
模型 | 分辨率 | 检查点 |
---|---|---|
VideoCrafter2 (文本到视频) | 320x512 | Hugging Face |
2.2 设置文件结构
按以下结构存储:
cd FIFO-Diffusion_public
.
└── videocrafter_models
└── base_512_v2
└── model.ckpt # VideoCrafter2检查点
3.1. 使用VideoCrafter2运行(单GPU)
使用Titan XP需要不到9GB显存。
python3 videocrafter_main.py --save_frames
3.2. 使用VideoCrafter2进行分布式并行推理(多GPU)
可能比单GPU推理消耗稍多内存(使用Titan XP需要11GB)。 请注意,我们的并行推理实现可能不是最优的。 欢迎提交拉取请求!🤓
python3 videocrafter_main_mp.py --num_gpus 8 --save_frames
3.3. 多提示生成
即将推出。
☀️ 从Open-Sora Plan v1.1.0开始
为简化实现,我们对Open-Sora Plan v1.1.0使用DDPM调度器。 由于Open-Sora Plan推荐使用PNDM调度器,结果可能不会显示最佳性能。 多进程(可并行化推理)和适配PNDM调度器是我们的下一个计划。
1. 环境设置 ⚙️ (推荐python==3.10.14)
cd FIFO-Diffusion_public
git clone git@github.com:PKU-YuanGroup/Open-Sora-Plan.git
python -m venv .sora
source .sora/bin/activate
cd Open-Sora-Plan
pip install -e .
pip install deepspeed
2. 使用Open-Sora Plan v1.1.0运行,65x512x512模型
使用A6000需要约40GB显存。 默认使用n=8。
sh scripts/opensora_fifo_65.sh
3. 使用Open-Sora Plan v1.1.0运行,221x512x512模型
使用A6000需要约40GB显存。 默认使用n=4。
sh scripts/opensora_fifo_221.sh
4. 使用Open-Sora Plan进行分布式并行推理(进行中)
即将推出。
Star历史
😆 引用
@article{kim2024fifo,
title = {FIFO-Diffusion: Generating Infinite Videos from Text without Training},
author = {Jihwan Kim and Junoh Kang and Jinyoung Choi and Bohyung Han},
journal = {arXiv preprint arXiv:2405.11473},
year = {2024},
}
🤓 致谢
我们的代码库基于VideoCrafter、Open-Sora Plan和zeroscope构建。 感谢作者们分享他们优秀的代码库!