WHAM:利用准确的3D运动重建世界坐标系下的人体
https://github.com/yohanshin/WHAM/assets/46889727/da4602b4-0597-4e64-8da4-ab06931b23ee
简介
这个仓库是WHAM: 利用准确的3D运动重建世界坐标系下的人体的官方Pytorch实现。欲了解更多信息,请访问我们的项目页面。
安装
详细信息请参见安装。
快速演示
WHAM演示的Google Colab现已可用
注册
要下载SMPL身体模型(中性、女性和男性),您需要注册SMPL和SMPLify。在获取演示数据时,将使用这两个主页的用户名和密码。
接下来,运行以下脚本以获取演示数据。该脚本将下载所有必需的依赖项,包括训练好的模型和演示视频。
bash fetch_demo_data.sh
您可以尝试一个示例视频:
python demo.py --video examples/IMG_9732.mov --visualize
我们假设相机焦距遵循CLIFF。您可以为SLAM指定已知的相机内参[fx fy cx cy],如下面的演示示例:
python demo.py --video examples/drone_video.mp4 --calib examples/drone_calib.txt --visualize
如果您只想获取相机坐标系下的运动,可以跳过SLAM。您可以这样运行:
python demo.py --video examples/IMG_9732.mov --visualize --estimate_local_only
您可以使用Temporal SMPLify作为后处理步骤来进一步优化WHAM的结果。这将允许更好的2D对齐以及3D精度。您只需在运行演示时添加--run_smplify
标志即可。
Docker
详细信息请参考Docker。
Python API
详细信息请参考API。
数据集
详细信息请参见数据集。
评估
# 在3DPW数据集上评估
python -m lib.eval.evaluate_3dpw --cfg configs/yamls/demo.yaml TRAIN.CHECKPOINT checkpoints/wham_vit_w_3dpw.pth.tar
# 在RICH数据集上评估
python -m lib.eval.evaluate_rich --cfg configs/yamls/demo.yaml TRAIN.CHECKPOINT checkpoints/wham_vit_w_3dpw.pth.tar
# 在EMDB数据集上评估(同时计算W-MPJPE和WA-MPJPE)
python -m lib.eval.evaluate_emdb --cfg configs/yamls/demo.yaml --eval-split 1 TRAIN.CHECKPOINT checkpoints/wham_vit_w_3dpw.pth.tar # EMDB 1
python -m lib.eval.evaluate_emdb --cfg configs/yamls/demo.yaml --eval-split 2 TRAIN.CHECKPOINT checkpoints/wham_vit_w_3dpw.pth.tar # EMDB 2
训练
WHAM训练包括两个不同的阶段:(1)通过AMASS数据集进行2D到SMPL的提升,以及(2)使用视频数据集进行特征集成的微调。请参见数据集以预处理训练数据集。
第1阶段
python train.py --cfg configs/yamls/stage1.yaml
第2阶段
训练第2阶段需要第1阶段的预训练结果。您可以使用您的预训练结果,或从Google Drive下载权重并保存为checkpoints/wham_stage1.tar.pth
。
python train.py --cfg configs/yamls/stage2.yaml TRAIN.CHECKPOINT <PATH-TO-STAGE1-RESULTS>
使用BEDLAM进行训练
待定
致谢
我们衷心感谢Hongwei Yi和Silvia Zuffi的讨论和校对。本工作的部分内容是在Soyong Shin在马克斯·普朗克智能系统研究所实习期间完成的。
基本实现大量借鉴了VIBE和TCMR。我们使用ViTPose进行2D关键点检测,使用DPVO和DROID-SLAM提取相机运动。请访问他们的官方网站了解更多详情。
待办事项
-
数据预处理
-
训练实现
-
Colab演示发布
-
自定义视频演示
引用
@InProceedings{shin2023wham,
title={WHAM: Reconstructing World-grounded Humans with Accurate 3D Motion},
author={Shin, Soyong and Kim, Juyong and Halilaj, Eni and Black, Michael J.},
booktitle={Computer Vision and Pattern Recognition (CVPR)},
year={2024}
}
许可证
详情请参见许可证。
联系方式
如有任何与本工作相关的问题,请联系soyongs@andrew.cmu.edu。