Project Icon

HumanArt

多场景人体数据集助力计算机视觉研究

Human-Art数据集包含50,000张来自20个场景的图像,涵盖自然和人工环境中的2D和3D人体表现。该数据集提供人体边界框、21个2D关键点、自接触关键点和描述文本等标注,旨在推进多场景人体检测、姿态估计和3D重建等任务。Human-Art的多样性有助于提高模型在实际应用中的特征提取和人体理解能力,同时支持跨域应用和可控人体图像生成。

Human-Art

本代码库包含以下论文的实现:

Human-Art: 一个连接自然和人工场景的多功能以人为中心的数据集 [项目主页] [论文] [代码] [数据] [视频]
鞠璇∗12, 曾爱玲∗1, 王佳楠1, 徐强2, 张磊1
同等贡献 1国际数字经济研究院 2香港中文大学

目录

概述

本文提出了一个大规模数据集Human-Art,旨在解决多场景以人为中心的任务,以弥合自然场景和人工场景之间的差距。它包括20个高质量的人体场景,包括2D表示(黄色虚线框)和3D表示(蓝色实线框)中的自然人和人工人物。

Human-Art 包含:

  • 20 种场景中包含人物形象的 50,000 张图像(5种自然场景、3种2D人工场景和12种2D人工场景)
  • 以人为中心的标注包括人体边界框21个2D人体关键点人体自接触关键点描述文本
  • MSCOCO 和 Human-Art 联合训练的基线人体检测器和人体姿态估计器

Human-Art 针对的任务:

  • 多场景人体检测2D人体姿态估计3D人体网格重建
    • 值得注意的是,使用ED-Pose训练后,在MSCOCO上的结果提高了0.8,表明多场景图像可能有利于真实场景的特征提取和人体理解。
  • 多场景人体图像生成(特别是可控的人体图像生成,例如带有姿态和文本等条件)
  • 跨域人体检测和人体姿态估计

数据集下载

Human-Art 在 CC 许可下可供下载。请填写此表格申请授权用于非商业用途。提交表格后,包含数据集的邮件将立即发送给您。请勿私下分享或传播数据。

为便于使用,Human-Art 采用与 MSCOCO 相同的格式处理。下载后请按以下文件结构保存数据集(我们还包括了 COCO 的文件结构,因为我们将其用于 COCO 和 Human-Art 的联合训练):

|-- data
    |-- HumanArt
        |-- annotations 
            |-- training_coco.json
            |-- training_humanart.json
            |-- training_humanart_coco.json
            |-- training_humanart_cartoon.json
            |-- ...
            |-- validation_coco.json
            |-- validation_humanart.json
            |-- validation_humanart_coco.json
            |-- validation_humanart_cartoon.json
            |-- ...
        |-- images
            |-- 2D_virtual_human
                |-- ...
            |-- 3D_virtual_human
                |-- ...
            |-- real_human
                |-- ...
    |-- coco
        |-- annotations 
        |-- train2017 
        |-- val2017 

注意我们有几种不同的 json 设置:

  • 以 _coco 结尾的(如 training_coco.json)是重新处理的 coco 标注 json 文件(如 person_keypoints_train2017.json),可以与 Human-Art 采用相同格式使用

  • 以 _humanart 结尾的(如 training_humanart.json)是 Human-Art 的标注 json 文件

  • 以 _humanart_coco 结尾的(如 training_humanart_coco.json)是 COCO 和 Human-Art 组合的标注 json 文件

  • 以 _humanart_[scenario] 结尾的(如 training_humanart_cartoon.json)是 Human-Art 特定场景的标注 json 文件

  • HumanArt_validation_detections_AP_H_56_person.json 是用于评估自顶向下姿态估计模型的AP为56的检测结果(类似于MSCOCO中的COCO_val2017_detections_AP_H_56_person.json)

Human-Art 的标注 json 文件描述如下:

{
    "info":{xxx}, # Human-Art 的一些基本信息
    "images":[
        {
            "file_name": "xxx" # 图像路径(与 COCO 定义相同)
            "height": xxx, # 图像高度(与 COCO 定义相同)
            "width": xxx, # 图像宽度(与 COCO 定义相同)
            "id": xxx, # 图像 id(与 COCO 定义相同)
            "page_url": "xxx", # 包含该图像的网页链接
            "image_url": "xxx", # 图像的网页链接
            "picture_name": "xxx", # 图像名称
            "author": "xxx", # 图像作者
            "description": "xxx", # 图像的文本描述
            "category": "xxx"  # 图像的场景(如卡通)
        },
        ...
    ],
    "annotations":[
        {
            "keypoints":[xxx], # 17个COCO关键点位置(与COCO定义相同)
            "keypoints_21":[xxx], # 21个Human-Art关键点位置 
            "self_contact": [xxx], # 自接触关键点,x1,y1,x2,y2...
            "num_keypoints": xxx, # 17个COCO格式关键点中标注的关键点(非不可见)数量(与COCO定义相同)
            "num_keypoints_21": xxx, # 21个Human-Art格式关键点中标注的关键点(非不可见)数量
            "iscrowd": xxx, # 是否标注(与COCO定义相同)
            "image_id": xxx, # 图像id(与COCO定义相同)
            "area": xxx, # 人体区域(与COCO定义相同)
            "bbox": [xxx], # 人体边界框(与COCO定义相同)
            "category_id": 1, # 类别id=1表示是人类别(与COCO定义相同)
            "id": xxx, # 标注id(与COCO定义相同)
            "annotator": xxx # 标注者id
        }
    ],
    "categories":[] # 类别信息(与COCO定义相同)
}

人体姿态估计

在 Human-Art 上训练的人体姿态估计器现已在 MMPosePR 中得到支持。详细用法和模型库可以在 MMPose 的文档中找到:(1) ViTPose, (2) HRNet, 和 (3) RTMPose

要训练和评估人体姿态估计器,请参考 MMPose。由于 MMPose 频繁更新,我们不在本仓库中维护代码库。由于 Human-Art 与 MSCOCO 兼容,您可以使用其数据加载器训练和评估 MMPose 中的任何模型。

支持的模型包括(xx-coco 表示仅在 MSCOCO 上训练,xx-humanart-coco 表示在 Human-Art 和 MSCOCO 上训练):

ViTPose 在 Human-Art 验证数据集上使用真实边界框的结果

使用经典解码器 | 架构 | 输入尺寸 | AP | AP50 | AP75 | AR | AR50 | 检查点 | 日志 | | :-------------------------------------------- | :--------: | :---: | :-------------: | :-------------: | :---: | :-------------: | :-------------------------------------------: | :-------------------------------------------: | | ViTPose-S-coco | 256x192 | 0.507 | 0.758 | 0.531 | 0.551 | 0.780 | 检查点 | 日志 | | ViTPose-S-humanart-coco | 256x192 | 0.738 | 0.905 | 0.802 | 0.768 | 0.911 | 检查点 | 日志 | | ViTPose-B-coco | 256x192 | 0.555 | 0.782 | 0.590 | 0.599 | 0.809 | 检查点 | 日志 | | ViTPose-B-humanart-coco | 256x192 | 0.759 | 0.905 | 0.823 | 0.790 | 0.917 | 检查点 | 日志 | | ViTPose-L-coco | 256x192 | 0.637 | 0.838 | 0.689 | 0.677 | 0.859 | 检查点 | 日志 | | ViTPose-L-humanart-coco | 256x192 | 0.789 | 0.916 | 0.845 | 0.819 | 0.929 | 检查点 | 日志 | | ViTPose-H-coco | 256x192 | 0.665 | 0.860 | 0.715 | 0.701 | 0.871 | 检查点 | 日志 | | ViTPose-H-humanart-coco | 256x192 | 0.800 | 0.926 | 0.855 | 0.828 | 0.933 | 检查点 | 日志 |

HRNet在Human-Art验证数据集上使用真实边界框的结果

使用经典解码器 | 架构 | 输入尺寸 | AP | AP50 | AP75 | AR | AR50 | 检查点 | 日志 | | :-------------------------------------------- | :------: | :---: | :-------------: | :-------------: | :---: | :-------------: | :-------------------------------------------: | :-------------------------------------------: | | pose_hrnet_w32-coco | 256x192 | 0.533 | 0.771 | 0.562 | 0.574 | 0.792 | 检查点 | 日志 | | pose_hrnet_w32-humanart-coco | 256x192 | 0.754 | 0.906 | 0.812 | 0.783 | 0.916 | 检查点 | 日志 | | pose_hrnet_w48-coco | 256x192 | 0.557 | 0.782 | 0.593 | 0.595 | 0.804 | 检查点 | 日志 | | pose_hrnet_w48-humanart-coco | 256x192 | 0.769 | 0.906 | 0.825 | 0.796 | 0.919 | 检查点 | 日志 |

RTM-Pose在Human-Art验证数据集上使用真实边界框的结果

架构输入尺寸APAP50AP75ARAR50检查点日志
rtmpose-t-coco256x1920.4440.7250.4530.4880.750检查点日志
rtmpose-t-humanart-coco256x1920.6550.8720.7200.6930.890检查点日志
rtmpose-s-coco256x1920.4800.7390.4980.5210.763检查点日志
rtmpose-s-humanart-coco256x1920.6980.8930.7680.7320.903检查点日志
rtmpose-m-coco256x1920.5320.7650.5630.5710.789检查点日志
rtmpose-m-humanart-coco256x1920.7280.8950.7910.7590.906检查点日志
rtmpose-l-coco256x1920.5640.7890.6020.5990.808检查点日志
rtmpose-l-humanart-coco256x1920.7530.9050.8120.7830.915检查点日志

人体检测

在Human-Art上训练的人体检测器现已在MMPose中得到支持,详见此PR。详细用法和模型库可在此处找到。

要训练和评估人体检测器,请参考MMDetection,这是一个基于PyTorch的开源目标检测工具箱,支持多种检测框架,具有更高的效率和准确性。由于MMDetection经常更新,我们不在此仓库中维护代码库。由于Human-Art与MSCOCO兼容,您可以使用其数据加载器来训练和评估MMDetection中的任何模型。

支持的模型包括:

引用Human-Art

如果您发现这个仓库对您的工作有用,请考虑按以下方式引用:

@inproceedings{ju2023human,
    title={Human-Art: A Versatile Human-Centric Dataset Bridging Natural and Artificial Scenes},
    author={Ju, Xuan and Zeng, Ailing and Wang, Jianan and Xu, Qiang and Zhang, Lei},
    booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
    year={2023},
}
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计 是一个多功能的在线设计和创意平台,提供广泛的设计工具和资源,以满足不同用户的需求。从专业的图形设计师到普通用户,无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑,稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合,帮助用户轻松实现创意设计。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号