Project Icon

VideoTetris

创新视频生成技术 实现复杂语义精确组合

VideoTetris是一个视频生成框架,采用时空组合扩散技术实现复杂文本语义的精确表达。通过操控去噪网络的注意力图,在空间和时间维度上控制视频生成。项目提出了视频数据预处理方法,提升了训练数据的动态性和提示理解能力。VideoTetris可生成10秒至2分钟或更长的视频,为复杂场景视频生成提供了新方案。

VideoTetris: 迈向可组合的文本到视频生成

           

本仓库包含了我们的VideoTetris的官方实现。

VideoTetris: 迈向可组合的文本到视频生成
田野杨玲*杨浩天高远邓宇凡陈婧敏王鑫涛于兆晨陶鑫万鹏飞张迪崔斌
(* 共同第一作者和通讯作者)
北京大学、快手科技

最新动态

  • VideoTetris论文发布
  • 发布VideoTetris用于可组合文本到视频生成的推理代码
  • 基于我们过滤后的数据集,发布用于长视频生成的微调StreamingT2V模型
  • 发布我们的LLM时空规划代码
  • 发布长视频可组合生成的训练/推理代码
  • 发布长视频可组合生成的模型检查点

简介

VideoTetris是一个新颖的框架,能够实现可组合的文本到视频生成。具体而言,我们提出了时空可组合扩散,通过在空间和时间上操纵和组合去噪网络的注意力图,精确地遵循复杂的文本语义。此外,我们提出了一种增强的视频数据预处理方法,以提高训练数据在运动动态和提示理解方面的质量,并配备了一种新的参考帧注意力机制,以改善自回归视频生成的一致性。我们的演示包括成功生成从10秒、30秒到2分钟的视频,并可以延长至更长的时间。

训练和推理

可组合文本到视频生成

我们提供了基于VideoCrafter2的VideoTetris可组合视频生成推理代码。您可以从Hugging Face下载预训练模型,并将其放在checkpoints/base_512_v2/model.ckpt。然后运行以下命令:

1. 通过Anaconda安装环境(推荐)

conda create -n videocrafter python=3.8.5
conda activate videocrafter
pip install -r requirements.txt

2. 区域规划

您可以在类似prompts/demo_videotetris.json的json文件中为不同的子对象规划区域。区域由边界框的左上角和右下角坐标定义。您可以参考prompts/demo_videotetris.json作为示例。最终的规划json应如下所示:

{
  {
    "basic_prompt": "左边有一只猫,右边有一只狗,它们正在阳光下打盹。",
    "sub_objects":[
        "一只可爱的橘猫。",
        "一只可爱的狗。"
    ],
    "layout_boxes":[
        [0, 0, 0.5, 1],
        [0.5, 0, 1, 1]
    ]
  },
}

在这个例子中,我们首先定义了基本提示,然后指定了子对象及其对应的区域,最终生成一个左边有猫右边有狗的视频。

3. VideoTetris推理

sh scripts/run_text2video_from_layout.sh

您可以在run_text2video_from_layout.sh脚本中指定输入的json文件。

具有高动态性和一致性的长视频生成

我们发布了一个使用我们过滤后的数据集微调的高质量StreamingT2V版本,用于长视频生成。您可以从Hugging Face-VideoTetris-long下载权重。不再存在颜色退化问题,运动动态性也得到了极大改善! 要生成更好的长视频,您可以首先按照其 GitHub 仓库中的步骤设置原始 StreamingT2V 环境。然后直接用下载的检查点替换 StreamingT2V 代码库中的 'streamingt2v.ckpt'。之后使用原始 StreamingT2V 代码库进行任何长视频生成任务的推理。

我们仍在努力在 VideoTetris 框架中训练更好的长篇组合视频生成模型,一旦准备就绪,我们将发布训练/推理代码。敬请期待!

示例结果

我们在此仅提供一些示例结果,更详细的结果可以在项目页面中找到。

左边是一只可爱的棕色狗,右边是一只睡眼惺忪的猫,它们正在阳光下小憩。
@16 帧
一位快乐的农夫和一位勤劳的铁匠正在建造一座谷仓。
@16 帧
一只可爱的棕色松鼠,在一堆榛子上,电影般的场景。
------> 过渡到
两只可爱的棕色松鼠,在一堆榛子上,电影般的场景。
------> 过渡到
三只可爱的棕色松鼠,在一堆榛子上,电影般的场景。
------> 过渡到
四只可爱的棕色松鼠,在一堆榛子上,电影般的场景。
@80 帧
一只可爱的棕色松鼠,在一堆榛子上,电影般的场景。
------> 过渡到
一只可爱的棕色松鼠和一只可爱的白色松鼠,在一堆榛子上,电影般的场景。
@240 帧

引用

@article{tian2024videotetris,
  title={VideoTetris: Towards Compositional Text-to-Video Generation},
  author={Tian, Ye and Yang, Ling and Yang, Haotian and Gao, Yuan and Deng, Yufan and Chen, Jingmin and Wang, Xintao and Yu, Zhaochen and Tao, Xin and Wan, Pengfei and Zhang, Di and Cui, Bin},
  journal={arXiv preprint arXiv:2406.04277},
  year={2024}
}
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能,包括文生视频、动态画面和形象生成等,帮助用户快速上手,创造专业级内容。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台,用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品,帮助用户探索创意灵感。

Project Cover

讯飞文书

讯飞文书依托讯飞星火大模型,为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能,满足事务性工作的高频需求,帮助撰稿人节省精力,提高效率,优化工作与生活。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号