Project Icon

VideoTetris

创新视频生成技术 实现复杂语义精确组合

VideoTetris是一个视频生成框架,采用时空组合扩散技术实现复杂文本语义的精确表达。通过操控去噪网络的注意力图,在空间和时间维度上控制视频生成。项目提出了视频数据预处理方法,提升了训练数据的动态性和提示理解能力。VideoTetris可生成10秒至2分钟或更长的视频,为复杂场景视频生成提供了新方案。

VideoTetris: 迈向可组合的文本到视频生成

           

本仓库包含了我们的VideoTetris的官方实现。

VideoTetris: 迈向可组合的文本到视频生成
田野杨玲*杨浩天高远邓宇凡陈婧敏王鑫涛于兆晨陶鑫万鹏飞张迪崔斌
(* 共同第一作者和通讯作者)
北京大学、快手科技

最新动态

  • VideoTetris论文发布
  • 发布VideoTetris用于可组合文本到视频生成的推理代码
  • 基于我们过滤后的数据集,发布用于长视频生成的微调StreamingT2V模型
  • 发布我们的LLM时空规划代码
  • 发布长视频可组合生成的训练/推理代码
  • 发布长视频可组合生成的模型检查点

简介

VideoTetris是一个新颖的框架,能够实现可组合的文本到视频生成。具体而言,我们提出了时空可组合扩散,通过在空间和时间上操纵和组合去噪网络的注意力图,精确地遵循复杂的文本语义。此外,我们提出了一种增强的视频数据预处理方法,以提高训练数据在运动动态和提示理解方面的质量,并配备了一种新的参考帧注意力机制,以改善自回归视频生成的一致性。我们的演示包括成功生成从10秒、30秒到2分钟的视频,并可以延长至更长的时间。

训练和推理

可组合文本到视频生成

我们提供了基于VideoCrafter2的VideoTetris可组合视频生成推理代码。您可以从Hugging Face下载预训练模型,并将其放在checkpoints/base_512_v2/model.ckpt。然后运行以下命令:

1. 通过Anaconda安装环境(推荐)

conda create -n videocrafter python=3.8.5
conda activate videocrafter
pip install -r requirements.txt

2. 区域规划

您可以在类似prompts/demo_videotetris.json的json文件中为不同的子对象规划区域。区域由边界框的左上角和右下角坐标定义。您可以参考prompts/demo_videotetris.json作为示例。最终的规划json应如下所示:

{
  {
    "basic_prompt": "左边有一只猫,右边有一只狗,它们正在阳光下打盹。",
    "sub_objects":[
        "一只可爱的橘猫。",
        "一只可爱的狗。"
    ],
    "layout_boxes":[
        [0, 0, 0.5, 1],
        [0.5, 0, 1, 1]
    ]
  },
}

在这个例子中,我们首先定义了基本提示,然后指定了子对象及其对应的区域,最终生成一个左边有猫右边有狗的视频。

3. VideoTetris推理

sh scripts/run_text2video_from_layout.sh

您可以在run_text2video_from_layout.sh脚本中指定输入的json文件。

具有高动态性和一致性的长视频生成

我们发布了一个使用我们过滤后的数据集微调的高质量StreamingT2V版本,用于长视频生成。您可以从Hugging Face-VideoTetris-long下载权重。不再存在颜色退化问题,运动动态性也得到了极大改善! 要生成更好的长视频,您可以首先按照其 GitHub 仓库中的步骤设置原始 StreamingT2V 环境。然后直接用下载的检查点替换 StreamingT2V 代码库中的 'streamingt2v.ckpt'。之后使用原始 StreamingT2V 代码库进行任何长视频生成任务的推理。

我们仍在努力在 VideoTetris 框架中训练更好的长篇组合视频生成模型,一旦准备就绪,我们将发布训练/推理代码。敬请期待!

示例结果

我们在此仅提供一些示例结果,更详细的结果可以在项目页面中找到。

左边是一只可爱的棕色狗,右边是一只睡眼惺忪的猫,它们正在阳光下小憩。
@16 帧
一位快乐的农夫和一位勤劳的铁匠正在建造一座谷仓。
@16 帧
一只可爱的棕色松鼠,在一堆榛子上,电影般的场景。
------> 过渡到
两只可爱的棕色松鼠,在一堆榛子上,电影般的场景。
------> 过渡到
三只可爱的棕色松鼠,在一堆榛子上,电影般的场景。
------> 过渡到
四只可爱的棕色松鼠,在一堆榛子上,电影般的场景。
@80 帧
一只可爱的棕色松鼠,在一堆榛子上,电影般的场景。
------> 过渡到
一只可爱的棕色松鼠和一只可爱的白色松鼠,在一堆榛子上,电影般的场景。
@240 帧

引用

@article{tian2024videotetris,
  title={VideoTetris: Towards Compositional Text-to-Video Generation},
  author={Tian, Ye and Yang, Ling and Yang, Haotian and Gao, Yuan and Deng, Yufan and Chen, Jingmin and Wang, Xintao and Yu, Zhaochen and Tao, Xin and Wan, Pengfei and Zhang, Di and Cui, Bin},
  journal={arXiv preprint arXiv:2406.04277},
  year={2024}
}
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计 是一个多功能的在线设计和创意平台,提供广泛的设计工具和资源,以满足不同用户的需求。从专业的图形设计师到普通用户,无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑,稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合,帮助用户轻松实现创意设计。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号