MAGVIT: 掩码生成视频转换器
[论文] | [项目页面] | [Colab] CVPR 2023论文的官方代码和模型:
MAGVIT:掩蔽生成式视频Transformer Lijun Yu, Yong Cheng, Kihyuk Sohn, José Lezama, Han Zhang, Huiwen Chang, Alexander G. Hauptmann, Ming-Hsuan Yang, Yuan Hao, Irfan Essa, Lu Jiang CVPR 2023
概述
我们推出MAGVIT来用单一模型解决各种视频合成任务,展示了其质量、效率和灵活性。
如果您在研究中发现此代码有用,请引用:
@inproceedings{yu2023magvit,
title={{MAGVIT}: 掩蔽生成式视频Transformer},
author={Yu, Lijun and Cheng, Yong and Sohn, Kihyuk and Lezama, Jos{\'e} and Zhang, Han and Chang, Huiwen and Hauptmann, Alexander G and Yang, Ming-Hsuan and Hao, Yuan and Essa, Irfan and Jiang, Lu},
booktitle={IEEE/CVF计算机视觉与模式识别会议论文集},
year={2023}
}
免责声明
请注意,这不是Google官方支持的产品。
检查点基于公开可用数据集的训练。一些数据集包含限制,包括非商业用途限制。在使用提供的模型和数据集之前,请查看第三方提供的条款和条件。
安装
有一个用于GPU运行的conda环境文件。 JAX需要CUDA 11和CuDNN 8.6。 已测试此VM镜像。
conda env create -f environment.yaml
conda activate magvit
或者,您可以通过以下方式安装依赖项:
pip install -r requirements.txt
预训练模型
关于模型预训练权重的发布,请参见此说明。
MAGVIT 3D-VQ模型
模型 | 大小 | 输入 | 输出 | 码本大小 | 数据集 |
---|---|---|---|---|---|
3D-VQ | B | 16帧 x 64x64 | 4x16x16 | 1024 | BAIR机器人推动 |
3D-VQ | L | 16帧 x 64x64 | 4x16x16 | 1024 | BAIR机器人推动 |
3D-VQ | B | 16帧 x 128x128 | 4x16x16 | 1024 | UCF-101 |
3D-VQ | L | 16帧 x 128x128 | 4x16x16 | 1024 | UCF-101 |
3D-VQ | B | 16帧 x 128x128 | 4x16x16 | 1024 | Kinetics-600 |
3D-VQ | L | 16帧 x 128x128 | 4x16x16 | 1024 | Kinetics-600 |
3D-VQ | B | 16帧 x 128x128 | 4x16x16 | 1024 | Something-Something-v2 |
3D-VQ | L | 16帧 x 128x128 | 4x16x16 | 1024 | Something-Something-v2 |
MAGVIT transformers
每个transformer模型必须与相同数据集和模型大小的相应3D-VQ分词器一起使用。
模型 | 任务 | 规模 | 数据集 | FVD |
---|---|---|---|---|
Transformer | 类别条件生成 | B | UCF-101 | 159 |
Transformer | 类别条件生成 | L | UCF-101 | 76 |
Transformer | 帧预测 | B | BAIR机器人推动 | 76 (48) |
Transformer | 帧预测 | L | BAIR机器人推动 | 62 (31) |
Transformer | 帧预测 (5) | B | Kinetics-600 | 24.5 |
Transformer | 帧预测 (5) | L | Kinetics-600 | 9.9 |
Transformer | 多任务-8 | B | BAIR机器人推动 | 32.8 |
Transformer | 多任务-8 | L | BAIR机器人推动 | 22.8 |
Transformer | 多任务-10 | B | Something-Something-v2 | 43.4 |
Transformer | 多任务-10 | L | Something-Something-v2 | 27.3 |