VideoCrafter2:克服数据限制实现高质量视频扩散模型
🔥🔥 我们专门的高分辨率I2V模型已发布在: :point_right:DynamiCrafter!!!
🔥VideoCrafter2在有限数据的情况下相较VideoCrafter1有了很大改进。更好的动作,更好的概念组合!!!
请加入我们并在Discord/Floor33上创作您自己的影片。
🎥 精美影片,由VideoCrafter2制作,人类导演
🔆 简介
🤗🤗🤗 VideoCrafter是一个用于制作视频内容的开源视频生成和编辑工具箱。
它目前包括文本生成视频和图像生成视频模型:
1. 通用文本生成视频
点击GIF可查看高分辨率视频。
2. 通用图像生成视频
:boom: 强烈建议您尝试我们专门的I2V模型DynamiCrafter:更高分辨率,更好的动态效果,更连贯!
📝 更新日志
-
[2024.02.05]: 🔥🔥 发布VideoCrafter1/DynamiCrafter的640x1024分辨率新I2V模型。
-
[2024.01.26]: 发布VideoCrafter2的512x320检查点。
-
[2024.01.18]: 发布VideoCrafter2和技术报告!
-
[2023.10.30]: 发布VideoCrafter1技术报告!
-
[2023.10.13]: 发布VideoCrafter1,高质量视频生成!
-
[2023.08.14]: 在Discord/Floor33上发布新版本的VideoCrafter。请加入我们,创作您自己的影片!
-
[2023.04.18]: 发布一个去除了大部分水印的VideoControl模型!
-
[2023.04.05]: 发布预训练的文本到视频模型、VideoLora模型和推理代码。
⏳ 模型
T2V模型 | 分辨率 | 检查点 |
---|---|---|
VideoCrafter2 | 320x512 | Hugging Face |
VideoCrafter1 | 576x1024 | Hugging Face |
VideoCrafter1 | 320x512 | Hugging Face |
I2V模型 | 分辨率 | 检查点 |
---|---|---|
VideoCrafter1 | 640x1024 | Hugging Face |
VideoCrafter1 | 320x512 | Hugging Face |
⚙️ 设置
1. 通过Anaconda安装环境(推荐)
conda create -n videocrafter python=3.8.5
conda activate videocrafter
pip install -r requirements.txt
💫 推理
1. 文本到视频
- 通过Hugging Face下载预训练的T2V模型,并将
model.ckpt
放在checkpoints/base_512_v2/model.ckpt
。 - 在终端中输入以下命令。
sh scripts/run_text2video.sh
2. 图像到视频
- 通过Hugging Face下载预训练的I2V模型,并将
model.ckpt
放在checkpoints/i2v_512_v1/model.ckpt
。 - 在终端中输入以下命令。
sh scripts/run_image2video.sh
3. 本地Gradio演示
- 根据之前的指南下载预训练的T2V和I2V模型,并将它们放在相应的目录中。
- 在终端中输入以下命令。
python gradio_app.py
📋 技术报告
😉 VideoCrafter2技术报告:VideoCrafter2: 克服高质量视频扩散模型的数据限制
😉 VideoCrafter1技术报告:VideoCrafter1: 用于高质量视频生成的开放扩散模型
😉 引用
技术报告目前尚未提供,因为它仍在准备中。您可以引用我们的图像到视频模型和相关基础模型的论文。
@misc{chen2024videocrafter2,
title={VideoCrafter2: 克服高质量视频扩散模型的数据限制},
author={Haoxin Chen and Yong Zhang and Xiaodong Cun and Menghan Xia and Xintao Wang and Chao Weng and Ying Shan},
year={2024},
eprint={2401.09047},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
@misc{chen2023videocrafter1,
标题={VideoCrafter1: 用于高质量视频生成的开放扩散模型},
作者={陈浩鑫 和 夏梦涵 和 何映清 和 张勇 和 寸晓东 和 杨少书 和 邢金博 和 刘耀芳 和 陈启峰 和 王鑫涛 和 翁超 和 单仰},
年份={2023},
eprint={2310.19512},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
@article{xing2023dynamicrafter,
标题={DynamiCrafter: 使用视频扩散先验为开放域图像制作动画},
作者={邢金博 和 夏梦涵 和 张勇 和 陈浩鑫 和 王鑫涛 和 黄天翊 和 单仰},
年份={2023},
eprint={2310.12190},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
@article{he2022lvdm,
标题={用于高保真长视频生成的潜在视频扩散模型},
作者={何映清 和 杨天宇 和 张勇 和 单仰 和 陈启峰},
年份={2022},
eprint={2211.13221},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
🤗 致谢
我们的代码库基于Stable Diffusion构建。 感谢这些作者分享他们出色的代码库!
📢 免责声明
我们开发此代码库用于研究目的,因此它只能用于个人/研究/非商业用途。