Human-Art
本代码库包含以下论文的实现:
Human-Art: 一个连接自然和人工场景的多功能以人为中心的数据集 [项目主页] [论文] [代码] [数据] [视频]
鞠璇∗12, 曾爱玲∗1, 王佳楠1, 徐强2, 张磊1
∗ 同等贡献 1国际数字经济研究院 2香港中文大学
目录
概述
本文提出了一个大规模数据集Human-Art,旨在解决多场景以人为中心的任务,以弥合自然场景和人工场景之间的差距。它包括20个高质量的人体场景,包括2D表示(黄色虚线框)和3D表示(蓝色实线框)中的自然人和人工人物。
Human-Art 包含:
- 在
20 种场景
中包含人物形象的50,000
张图像(5种自然场景、3种2D人工场景和12种2D人工场景) - 以人为中心的标注包括
人体边界框
、21个2D人体关键点
、人体自接触关键点
和描述文本
- 在 MSCOCO 和 Human-Art 联合训练的基线人体检测器和人体姿态估计器
Human-Art 针对的任务:
- 多场景
人体检测
、2D人体姿态估计
和3D人体网格重建
- 值得注意的是,使用ED-Pose训练后,在MSCOCO上的结果提高了0.8,表明多场景图像可能有利于真实场景的特征提取和人体理解。
- 多场景
人体图像生成
(特别是可控
的人体图像生成,例如带有姿态和文本等条件) 跨域
人体检测和人体姿态估计
数据集下载
Human-Art 在 CC 许可下可供下载。请填写此表格申请授权用于非商业用途。提交表格后,包含数据集的邮件将立即发送给您。请勿私下分享或传播数据。
为便于使用,Human-Art 采用与 MSCOCO 相同的格式处理。下载后请按以下文件结构保存数据集(我们还包括了 COCO 的文件结构,因为我们将其用于 COCO 和 Human-Art 的联合训练):
|-- data
|-- HumanArt
|-- annotations
|-- training_coco.json
|-- training_humanart.json
|-- training_humanart_coco.json
|-- training_humanart_cartoon.json
|-- ...
|-- validation_coco.json
|-- validation_humanart.json
|-- validation_humanart_coco.json
|-- validation_humanart_cartoon.json
|-- ...
|-- images
|-- 2D_virtual_human
|-- ...
|-- 3D_virtual_human
|-- ...
|-- real_human
|-- ...
|-- coco
|-- annotations
|-- train2017
|-- val2017
注意我们有几种不同的 json 设置:
-
以 _coco 结尾的(如 training_coco.json)是重新处理的 coco 标注 json 文件(如 person_keypoints_train2017.json),可以与 Human-Art 采用相同格式使用
-
以 _humanart 结尾的(如 training_humanart.json)是 Human-Art 的标注 json 文件
-
以 _humanart_coco 结尾的(如 training_humanart_coco.json)是 COCO 和 Human-Art 组合的标注 json 文件
-
以 _humanart_[scenario] 结尾的(如 training_humanart_cartoon.json)是 Human-Art 特定场景的标注 json 文件
-
HumanArt_validation_detections_AP_H_56_person.json 是用于评估自顶向下姿态估计模型的AP为56的检测结果(类似于MSCOCO中的COCO_val2017_detections_AP_H_56_person.json)
Human-Art 的标注 json 文件描述如下:
{
"info":{xxx}, # Human-Art 的一些基本信息
"images":[
{
"file_name": "xxx" # 图像路径(与 COCO 定义相同)
"height": xxx, # 图像高度(与 COCO 定义相同)
"width": xxx, # 图像宽度(与 COCO 定义相同)
"id": xxx, # 图像 id(与 COCO 定义相同)
"page_url": "xxx", # 包含该图像的网页链接
"image_url": "xxx", # 图像的网页链接
"picture_name": "xxx", # 图像名称
"author": "xxx", # 图像作者
"description": "xxx", # 图像的文本描述
"category": "xxx" # 图像的场景(如卡通)
},
...
],
"annotations":[
{
"keypoints":[xxx], # 17个COCO关键点位置(与COCO定义相同)
"keypoints_21":[xxx], # 21个Human-Art关键点位置
"self_contact": [xxx], # 自接触关键点,x1,y1,x2,y2...
"num_keypoints": xxx, # 17个COCO格式关键点中标注的关键点(非不可见)数量(与COCO定义相同)
"num_keypoints_21": xxx, # 21个Human-Art格式关键点中标注的关键点(非不可见)数量
"iscrowd": xxx, # 是否标注(与COCO定义相同)
"image_id": xxx, # 图像id(与COCO定义相同)
"area": xxx, # 人体区域(与COCO定义相同)
"bbox": [xxx], # 人体边界框(与COCO定义相同)
"category_id": 1, # 类别id=1表示是人类别(与COCO定义相同)
"id": xxx, # 标注id(与COCO定义相同)
"annotator": xxx # 标注者id
}
],
"categories":[] # 类别信息(与COCO定义相同)
}
人体姿态估计
在 Human-Art 上训练的人体姿态估计器现已在 MMPose 的 PR 中得到支持。详细用法和模型库可以在 MMPose 的文档中找到:(1) ViTPose, (2) HRNet, 和 (3) RTMPose。
要训练和评估人体姿态估计器,请参考 MMPose。由于 MMPose 频繁更新,我们不在本仓库中维护代码库。由于 Human-Art 与 MSCOCO 兼容,您可以使用其数据加载器训练和评估 MMPose 中的任何模型。
支持的模型包括(xx-coco 表示仅在 MSCOCO 上训练,xx-humanart-coco 表示在 Human-Art 和 MSCOCO 上训练):
ViTPose 在 Human-Art 验证数据集上使用真实边界框的结果
使用经典解码器 | 架构 | 输入尺寸 | AP | AP50 | AP75 | AR | AR50 | 检查点 | 日志 | | :-------------------------------------------- | :--------: | :---: | :-------------: | :-------------: | :---: | :-------------: | :-------------------------------------------: | :-------------------------------------------: | | ViTPose-S-coco | 256x192 | 0.507 | 0.758 | 0.531 | 0.551 | 0.780 | 检查点 | 日志 | | ViTPose-S-humanart-coco | 256x192 | 0.738 | 0.905 | 0.802 | 0.768 | 0.911 | 检查点 | 日志 | | ViTPose-B-coco | 256x192 | 0.555 | 0.782 | 0.590 | 0.599 | 0.809 | 检查点 | 日志 | | ViTPose-B-humanart-coco | 256x192 | 0.759 | 0.905 | 0.823 | 0.790 | 0.917 | 检查点 | 日志 | | ViTPose-L-coco | 256x192 | 0.637 | 0.838 | 0.689 | 0.677 | 0.859 | 检查点 | 日志 | | ViTPose-L-humanart-coco | 256x192 | 0.789 | 0.916 | 0.845 | 0.819 | 0.929 | 检查点 | 日志 | | ViTPose-H-coco | 256x192 | 0.665 | 0.860 | 0.715 | 0.701 | 0.871 | 检查点 | 日志 | | ViTPose-H-humanart-coco | 256x192 | 0.800 | 0.926 | 0.855 | 0.828 | 0.933 | 检查点 | 日志 |
HRNet在Human-Art验证数据集上使用真实边界框的结果
使用经典解码器 | 架构 | 输入尺寸 | AP | AP50 | AP75 | AR | AR50 | 检查点 | 日志 | | :-------------------------------------------- | :------: | :---: | :-------------: | :-------------: | :---: | :-------------: | :-------------------------------------------: | :-------------------------------------------: | | pose_hrnet_w32-coco | 256x192 | 0.533 | 0.771 | 0.562 | 0.574 | 0.792 | 检查点 | 日志 | | pose_hrnet_w32-humanart-coco | 256x192 | 0.754 | 0.906 | 0.812 | 0.783 | 0.916 | 检查点 | 日志 | | pose_hrnet_w48-coco | 256x192 | 0.557 | 0.782 | 0.593 | 0.595 | 0.804 | 检查点 | 日志 | | pose_hrnet_w48-humanart-coco | 256x192 | 0.769 | 0.906 | 0.825 | 0.796 | 0.919 | 检查点 | 日志 |
RTM-Pose在Human-Art验证数据集上使用真实边界框的结果
架构 | 输入尺寸 | AP | AP50 | AP75 | AR | AR50 | 检查点 | 日志 |
---|---|---|---|---|---|---|---|---|
rtmpose-t-coco | 256x192 | 0.444 | 0.725 | 0.453 | 0.488 | 0.750 | 检查点 | 日志 |
rtmpose-t-humanart-coco | 256x192 | 0.655 | 0.872 | 0.720 | 0.693 | 0.890 | 检查点 | 日志 |
rtmpose-s-coco | 256x192 | 0.480 | 0.739 | 0.498 | 0.521 | 0.763 | 检查点 | 日志 |
rtmpose-s-humanart-coco | 256x192 | 0.698 | 0.893 | 0.768 | 0.732 | 0.903 | 检查点 | 日志 |
rtmpose-m-coco | 256x192 | 0.532 | 0.765 | 0.563 | 0.571 | 0.789 | 检查点 | 日志 |
rtmpose-m-humanart-coco | 256x192 | 0.728 | 0.895 | 0.791 | 0.759 | 0.906 | 检查点 | 日志 |
rtmpose-l-coco | 256x192 | 0.564 | 0.789 | 0.602 | 0.599 | 0.808 | 检查点 | 日志 |
rtmpose-l-humanart-coco | 256x192 | 0.753 | 0.905 | 0.812 | 0.783 | 0.915 | 检查点 | 日志 |
人体检测
在Human-Art上训练的人体检测器现已在MMPose中得到支持,详见此PR。详细用法和模型库可在此处找到。
要训练和评估人体检测器,请参考MMDetection,这是一个基于PyTorch的开源目标检测工具箱,支持多种检测框架,具有更高的效率和准确性。由于MMDetection经常更新,我们不在此仓库中维护代码库。由于Human-Art与MSCOCO兼容,您可以使用其数据加载器来训练和评估MMDetection中的任何模型。
支持的模型包括:
检测配置 | 模型AP | 下载 |
---|---|---|
RTMDet-tiny | 46.6 | 检测模型 |
RTMDet-s | 50.6 | 检测模型 |
YOLOX-nano | 38.9 | 检测模型 |
YOLOX-tiny | 47.7 | 检测模型 |
YOLOX-s | 54.6 | 检测模型 |
YOLOX-m | 59.1 | 检测模型 |
YOLOX-l | 60.2 | 检测模型 |
YOLOX-x | 61.3 | 检测模型 |
引用Human-Art
如果您发现这个仓库对您的工作有用,请考虑按以下方式引用:
@inproceedings{ju2023human,
title={Human-Art: A Versatile Human-Centric Dataset Bridging Natural and Artificial Scenes},
author={Ju, Xuan and Zeng, Ailing and Wang, Jianan and Xu, Qiang and Zhang, Lei},
booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
year={2023},
}