VideoElevator
"VideoElevator: 利用多功能文本到图像扩散模型提升视频生成质量"的官方PyTorch实现
https://github.com/YBYBZhang/VideoElevator/assets/40799060/f850bc9c-ccf6-48b3-8011-394986aade71
VideoElevator旨在利用文本到图像扩散模型提升生成视频的质量。它是无需训练且即插即用的,支持各种文本到视频和文本到图像扩散模型的协作。
新闻
- [2024/04/07] 我们发布了VideoElevator的代码,包括三个示例脚本。
方法
**上图:**以文本τ为输入,传统的T2V同时进行时间和空间建模,并在整个采样链中积累低质量内容。
**下图:**VideoElevator明确地将每个步骤分解为时间运动优化和空间质量提升,前者封装T2V以增强时间一致性,后者利用T2I提供更忠实的细节,例如穿着西装。经验表明,在几个时间步骤中应用T2V就足以确保时间一致性。
设置
1. 下载权重
所有预训练权重都下载到checkpoints/
目录,包括文本到视频和文本到图像扩散模型的预训练权重。用户可以根据需要下载相应的权重。
- 文本到视频扩散模型:LaVie,ZeroScope,AnimateLCM。
- 文本到图像扩散模型:StableDiffusion v1.5,StableDiffusion v2.1-base。
- [可选] Civitai的LoRA:RCNZ卡通,RealisticVision,Lyriel,ToonYou。
2. 环境要求
conda create -n videoelevator python=3.10
conda activate videoelevator
pip install -r requirements.txt
推理
我们在example_scripts/
目录中提供了VideoElevator的三个示例脚本,推荐运行example_scripts/sd_animatelcm.py
。要进行改进的文本到视频生成,直接运行命令python example_scripts/sd_animatelcm.py
。
值得注意的是,所有脚本都可以在**不到11 GB VRAM(例如2080Ti GPU)**的情况下运行。
[可选] 超参数
您可以定义以下超参数,并在项目页面的消融研究中查看它们的效果:
- stable_steps:时间运动优化中时间步的选择。
- stable_num:T2V去噪中使用的步数。
引用
@article{zhang2024videoelevator,
title={VideoElevator: Elevating Video Generation Quality with Versatile Text-to-Image Diffusion Models},
author={Zhang, Yabo and Wei, Yuxiang and Lin, Xianhui and Hui, Zheng and Ren, Peiran and Xie, Xuansong and Ji, Xiangyang and Zuo, Wangmeng},
journal={arXiv preprint arXiv:2403.05438},
year={2024}
}
致谢
本仓库借鉴了Diffusers、LaVie、AnimateLCM和FreeInit的代码。感谢他们的贡献!