Project Icon

3DMPPE_ROOTNET_RELEASE

单张RGB图像的相机距离感知的3D多人人体姿态估计实现

此项目基于PyTorch实现了3D多人人体姿态估计,兼容多种公开的2D和3D数据集,如Human3.6M、MPII、MS COCO、MuCo-3DHP、MuPoTS-3D和3DPW。其特点包括代码简洁灵活、直观的人体姿态可视化,并支持不同单位系统的适配。项目还提供详细的训练和测试指南,旨在帮助用户在GPU环境下高效运行姿态估计算法。

"基于相机距离感知的自顶向下方法从单张RGB图像进行3D多人姿态估计"的RootNet部分

简介

这个仓库是**基于相机距离感知的自顶向下方法从单张RGB图像进行3D多人姿态估计 (ICCV 2019)的官方PyTorch实现。它包含了RootNet**部分。

此仓库提供的内容:

依赖项

此代码在Ubuntu 16.04、CUDA 9.0、cuDNN 7.1环境下使用两块NVIDIA 1080Ti GPU进行测试。

开发使用的是Python 3.6.5版本和Anaconda 3。

快速演示

您可以在demo文件夹中尝试快速演示。

  • 这里下载预训练的RootNet。
  • demo文件夹中准备input.jpg和预训练的快照。
  • 这里设置bbox_list
  • 如果您想在GPU 0上运行,执行python demo.py --gpu 0 --test_epoch 18
  • 您可以看到output_root_2d.jpg和打印出的根关节深度。

目录结构

根目录

${POSE_ROOT}的结构如下所示。

${POSE_ROOT}
|-- data
|-- demo
|-- common
|-- main
|-- output
  • data包含数据加载代码和指向图像和注释目录的软链接。
  • demo包含演示代码。
  • common包含3D多人姿态估计系统的核心代码。
  • main包含用于训练或测试网络的高级代码。
  • output包含日志、训练模型、可视化输出和测试结果。

数据

您需要按照以下结构组织data目录。

${POSE_ROOT}
|-- data
|   |-- Human36M
|   |   |-- bbox
|   |   |   |-- bbox_human36m_output.json
|   |   |-- images
|   |   |-- annotations
|   |-- MPII
|   |   |-- images
|   |   |-- annotations
|   |-- MSCOCO
|   |   |-- images
|   |   |   |-- train2017
|   |   |   |-- val2017
|   |   |-- annotations
|   |-- MuCo
|   |   |-- data
|   |   |   |-- augmented_set
|   |   |   |-- unaugmented_set
|   |   |   |-- MuCo-3DHP.json
|   |-- MuPoTS
|   |   |-- bbox
|   |   |   |-- bbox_mupots_output.json
|   |   |-- data
|   |   |   |-- MultiPersonTestSet
|   |   |   |-- MuPoTS-3D.json
|   |-- PW3D
|   |   |-- data
|   |   |   |-- 3DPW_train.json
|   |   |   |-- 3DPW_validation.json
|   |   |   |-- 3DPW_test.json
|   |   |-- imageFiles

要从Google Drive下载多个文件而不压缩它们,请尝试这个。 如果您在尝试从Google Drive链接下载数据集时遇到"下载限制"问题,请尝试以下技巧。

* 转到包含您想要复制的文件的共享文件夹
* 选择您想要复制的所有文件
* 在右上角点击三个垂直点,选择"制作副本"
* 然后,文件就会被复制到您的个人Google Drive账户。您可以从个人账户下载它。

输出

您需要按照以下结构组织output文件夹。

${POSE_ROOT}
|-- output
|-- |-- log
|-- |-- model_dump
|-- |-- result
|-- |-- vis
  • 建议以软链接形式创建output文件夹,而不是文件夹形式,因为它会占用大量存储空间。
  • log文件夹包含训练日志文件。
  • model_dump文件夹包含每个epoch保存的检查点。
  • result文件夹包含在测试阶段生成的最终估计文件。
  • vis文件夹包含可视化结果。

运行3DMPPE_ROOTNET

开始

  • main/config.py中,您可以更改模型设置,包括要使用的数据集、网络骨干和输入大小等。
  • 您必须根据每个数据集的单位设置bbox_real。例如,Human3.6M使用毫米,因此bbox_real = (2000, 2000)。3DPW使用米,因此bbox_real = (2, 2)

训练

main文件夹中,运行

python train.py --gpu 0-1

在GPU 0,1上训练网络。

如果您想继续实验,运行

python train.py --gpu 0-1 --continue

可以使用--gpu 0,1代替--gpu 0-1

测试

将训练好的模型放在output/model_dump/中。

main文件夹中,运行

python test.py --gpu 0-1 --test_epoch 20

在GPU 0,1上使用第20个epoch训练的模型进行测试。可以使用--gpu 0,1代替--gpu 0-1

结果

  • RootNet的预训练模型在这里
  • Human3.6M和MuPoTS-3D数据集的边界框(来自DetectNet且未扩展)在这里您可以使用这个来测试RootNet。
  • Human3.6M、MSCOCO和MuPoTS-3D数据集的边界框(来自DetectNet且已扩展)和根关节坐标(来自RootNet)在这里您不应该使用此文件中的边界框来测试RootNet,因为这些边界框已经扩展。请使用上面的那个(来自DetectNet且未扩展的边界框)。
  • 3DPW数据集(仅测试集)的边界框(GT)和根关节坐标(来自RootNet)在这里。该结果是从在MuCo+MSCOCO上训练的RootNet获得的(不包括3DPW训练集)。

对于评估,您可以运行test.py,或者在Human36MMuPoTS中有评估代码。

Human3.6M数据集使用协议2(毫米)

方法MRPEMRPE_xMRPE_yMRPE_z
RootNet120.023.323.0108.1

MuPoTS-3D数据集(百分比)

方法AP_25
RootNet31.0

3DPW数据集(测试集,米)

方法MRPEMRPE_xMRPE_yMRPE_z
RootNet0.3860.0450.0940.353

MSCOCO数据集

我们额外提供了MSCOCO数据集上的估计3D人体根坐标。坐标在3D相机坐标系中,x和y轴的焦距都设置为1500mm。您可以使用方程2或我的论文补充材料中的方程来更改焦距和相应的距离。

参考文献

@InProceedings{Moon_2019_ICCV_3DMPPE,
author = {Moon, Gyeongsik and Chang, Juyong and Lee, Kyoung Mu},
title = {Camera Distance-aware Top-down Approach for 3D Multi-person Pose Estimation from a Single RGB Image},
booktitle = {The IEEE Conference on International Conference on Computer Vision (ICCV)},
year = {2019}
}
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号