Make-Your-Video - 结合文本和深度信息的智能视频生成模型

Make-Your-Video: 使用文本和结构指导的定制视频生成

邢金博、夏梦涵*、刘宇鑫、张悦晨、张勇、何颖青、刘涵源、
陈浩鑫、寸晓东、王鑫涛、单芳、黄田津

(* 通讯作者)

来自香港中文大学和腾讯AI实验室

IEEE TVCG 2024

🔆 简介

Make-Your-Video是一个具有文本和运动结构(深度)控制的定制视频生成模型。它继承了图像LDM的丰富视觉概念,并支持更长视频的推理。

🤗 应用

真实场景转视频

真实场景	我们的方法	Text2Video-zero+CtrlNet	LVDM_Ext+Adapter

"一座正在泄水的大坝"

"一艘未来主义风格的火箭船停在发射台上,设计流畅,灯光闪烁"

3D场景建模转视频

真实场景	我们的方法	Text2Video-zero+CtrlNet	LVDM_Ext+Adapter

"一列火车在铁轨上,2D卡通风格"

"公园里画板上的梵高风格画作,野餐毯上放着一些书,照片级真实"

"一幅中国水墨山水画"

视频重新渲染

原始视频	我们的方法	SD-Depth	Text2Video-zero+CtrlNet	LVDM_Ext+Adapter	Tune-A-Video

"一只老虎在森林中行走,照片级真实"

"一艘折纸船在海上航行"

"一头骆驼在雪地上行走,宫崎骏动画风格"

🌟 方法概述

📝 更新日志

[2023.11.30]: 🔥🔥 发布主要模型。
[2023.06.01]: 🔥🔥 创建此仓库并启动项目网页。

🧰 模型

模型	分辨率	检查点
MakeYourVideo256	256x256	Hugging Face

使用单个NVIDIA A100 (40G) GPU对一张图像进行动画处理大约需要13秒,峰值GPU内存为20 GB。

⚙️ 设置

通过Anaconda安装环境(推荐)

conda create -n makeyourvideo python=3.8.5
conda activate makeyourvideo
pip install -r requirements.txt

💫 推理

1. 命令行

从Hugging Face下载预训练的深度估计模型,并将dpt_hybrid-midas-501f0c75.pt放在checkpoints/depth/dpt_hybrid-midas-501f0c75.pt中。
从Hugging Face下载预训练模型,并将model.ckpt放在checkpoints/makeyourvideo_256_v1/model.ckpt中。
在终端中输入以下命令。

  sh scripts/run.sh

👨‍👩‍👧‍👦 其他有趣的开源项目

VideoCrafter1: 高质量视频生成框架。

DynamiCrafter: 使用视频扩散先验的开放域图像动画方法。

在同一个conda环境中尝试这些项目!

😉 引用

@article{xing2023make,
  title={Make-Your-Video: Customized Video Generation Using Textual and Structural Guidance},
  author={Xing, Jinbo and Xia, Menghan and Liu, Yuxin and Zhang, Yuechen and Zhang, Yong and He, Yingqing and Liu, Hanyuan and Chen, Haoxin and Cun, Xiaodong and Wang, Xintao and others},
  journal={arXiv preprint arXiv:2306.00943},
  year={2023}
}

📢 免责声明

我们开发此仓库用于研究目的,因此它只能用于个人/研究/非商业用途。

🌞 致谢

我们衷心感谢牛津大学视觉几何组收集WebVid-10M数据集,并遵循相应的访问条款。