潘多拉:迈向具有自然语言动作和视频状态的通用世界模型
我们推出了潘多拉,这是朝着通用世界模型(GWM)迈出的一步,它:
- 通过在任何领域生成视频来模拟世界状态
- 允许使用自然语言表达的动作进行随时控制
请参阅 world-model.ai 获取结果。
新闻
- [2024/05/23] 发布模型和推理代码。
- [2024/05/23] 启动网站并发布论文。
设置
conda create -n pandora python=3.12.3 nvidia/label/cuda-12.1.0::cuda-toolkit -y
conda activate pandora
pip install torch torchvision torchaudio
bash build_envs.sh
如果您的GPU不支持CUDA 12.1,您也可以使用CUDA 11.8安装:
conda create -n pandora python=3.12.3 nvidia/label/cuda-11.8.0::cuda-toolkit -y
conda activate pandora
pip install torch torchvision torchaudio
bash build_envs.sh
推理
Gradio演示
- 从Hugging Face下载模型检查点。(由于数据许可问题,我们目前隐藏了模型权重。我们将在解决这个问题后尽快重新开放权重。)
- 在终端上运行以下命令
CUDA_VISIBLE_DEVICES={cuda_id} python gradio_app.py --ckpt_path {path_to_ckpt}
然后您可以通过gradio界面与模型进行交互。
引用
@article{xiang2024pandora,
title={Pandora: Towards General World Model with Natural Language Actions and Video States},
author={Jiannan Xiang and Guangyi Liu and Yi Gu and Qiyue Gao and Yuting Ning and Yuheng Zha and Zeyu Feng and Tianhua Tao and Shibo Hao and Yemin Shi and Zhengzhong Liu and Eric P. Xing and Zhiting Hu},
year={2024}
}