Project Icon

PyMAF-X

单图像全身3D人体重建新技术

PyMAF-X是一个开源的3D人体重建项目,利用金字塔网格对齐反馈循环技术,从单幅图像或视频中重建全身3D人体模型。该方法在COCO等数据集上表现优异,适用于计算机视觉和动作捕捉等领域。项目提供预训练模型,支持图像和视频输入,便于研究和应用。

🚩 [更新] PyMAF-X 的面部部分已更新。请在 NoW 基准测试 上查看仅面部评估结果。

PyMAF-X: 从单目图像实现全身模型回归的精准对齐

张宏文 · 田雅婷 · 张宇翔 · 李梦成 · 安亮 · 孙哲南 · 刘烨斌

TPAMI 2023

项目主页 | 视频 | 论文


逐帧重建。视频片段来自 此处

COCO验证集图像上的重建结果。
点击此处 查看更多结果

安装

  • Python 3.8
conda create --no-default-packages -n pymafx python=3.8
conda activate pymafx

依赖包

conda install pytorch==1.9.0 torchvision==0.10.0 cudatoolkit=11.1 -c pytorch -c conda-forge
pip install "git+https://github.com/facebookresearch/pytorch3d.git@stable"
  • 其他列在 requirements.txt 中的包
pip install -r requirements.txt

必要文件

smpl_downsampling.npz 和 mano_downsampling.npz

  • 运行以下脚本获取必要文件。
bash fetch_data.sh

SMPL 和 SMPL-X 模型文件

  • 收集 SMPL/MANO/FLAME/SMPL-X 模型文件。重命名模型文件并将它们放入 ./data/smpl 目录。

下载 部分网格 文件并将其放入 ./data/partial_mesh 目录。

下载 预训练模型 并将其放入 ./data/pretrained_model 目录。 收集上述必要文件后,./data 目录的结构预期如下:

./data
├── J_regressor_extra.npy
├── smpl_mean_params.npz
├── smpl_downsampling.npz
├── mano_downsampling.npz
├── flame_downsampling.npy
├── partial_mesh
│   └── ***_vids.npz
├── pretrained_model
│   └── PyMAF-X_model_checkpoint_v1.1.pt
└── smpl
    ├── FLAME2020
    │   ├── FLAME_NEUTRAL.pkl
    │   ├── flame_dynamic_embedding.npy
    │   └── flame_static_embedding.pkl
    ├── MANO_RIGHT.pkl
    ├── SMPLX_NEUTRAL_2020.npz
    ├── SMPL_NEUTRAL.pkl
    └── model_transfer
        ├── MANO_SMPLX_vertex_ids.pkl
        ├── SMPL-X__FLAME_vertex_ids.npy
        └── smplx_to_smpl.pkl

演示

你可以先在我们准备的 Google Colab 笔记本上试一试,无需自己准备环境:在 Colab 中打开

运行演示代码。

对于图片文件夹输入:

python -m apps.demo_smplx --image_folder examples/coco_images --detection_threshold 0.3 --pretrained_model data/pretrained_model/PyMAF-X_model_checkpoint_v1.1.pt --misc TRAIN.BHF_MODE full_body MODEL.PyMAF.HAND_VIS_TH 0.1

对于视频输入:

python -m apps.demo_smplx --vid_file examples/dancer_short.mp4 --pretrained_model data/pretrained_model/PyMAF-X_model_checkpoint_v1.1.pt --misc TRAIN.BHF_MODE full_body MODEL.PyMAF.HAND_VIS_TH 0.1

结果将保存在 ./output 目录。你可以在脚本中设置不同的超参数,例如,--detection_threshold 用于人体检测阈值,MODEL.PyMAF.HAND_VIS_TH 用于手部可见性阈值。

训练

要进行训练,我们首先需要收集训练数据集的预处理文件。伪 SMPL-X 标签(带有 'xpose'/'xshape' 键)可以在这里下载。关于训练的更多细节,请参考 PyMAF。示例用法:

python -m apps.train --regressor pymaf_net --train_data h36m_coco_itw --eval_every 10 --save_every 20 --train_data h36m_coco_itw --misc TRAIN.BATCH_SIZE 64 MODEL.PyMAF.AUX_SUPV_ON True MODEL.PyMAF.TRANS.USE_ATT True MODEL.PyMAF.TRANS.ATT_HEAD 1 MODEL.PyMAF.TRANS.ATT_FEAT_IDX 2 MODEL.MESH_MODEL smplx TRAIN.USE_EFT True MODEL.PyMAF.USE_CAM_FEAT True LOSS.SHAPE_W 0.6 MODEL.PyMAF.BACKBONE res50 POSE_RES_MODEL.PRETR_SET coco

引用

如果这项工作对你的研究有帮助,请引用以下论文:

@article{pymafx2023,
  title={PyMAF-X: Towards Well-aligned Full-body Model Regression from Monocular Images},
  author={Zhang, Hongwen and Tian, Yating and Zhang, Yuxiang and Li, Mengcheng and An, Liang and Sun, Zhenan and Liu, Yebin},
  journal={IEEE Transactions on Pattern Analysis and Machine Intelligence},
  year={2023}
}

@inproceedings{pymaf2021, 标题={PyMAF: 基于金字塔网格对齐反馈循环的3D人体姿态和形状回归}, 作者={张宏文 and 田雅婷 and 周鑫池 and 欧阳万里 and 刘烨斌 and 王立民 and 孙哲南}, 会议论文集={国际计算机视觉会议论文集}, 年份={2021} }


## 致谢

部分代码借鉴自以下项目,包括 [DaNet](https://github.com/HongwenZhang/DaNet-3DHumanReconstruction), [SPIN](https://github.com/nkolot/SPIN), [VIBE](https://github.com/mkocabas/VIBE), [SPEC](https://github.com/mkocabas/SPEC), [MeshGraphormer](https://github.com/microsoft/MeshGraphormer), [PIFu](https://github.com/shunsukesaito/PIFu), [DensePose](https://github.com/facebookresearch/DensePose), [HMR](https://github.com/akanazawa/hmr), [HRNet](https://github.com/leoxiaobin/deep-high-resolution-net.pytorch), [pose_resnet](https://github.com/Microsoft/human-pose-estimation.pytorch)。非常感谢他们的贡献。
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号