#COCO数据集

QueryInst - 简洁高效的实例分割策略
QueryInst实例分割mmdetectionCOCO数据集目标检测Github开源项目
QueryInst是一种由动态掩码头并行监督驱动的查询实例分割方法,在准确性和速度上具有显著优势。该项目涵盖对象检测、实例分割和视频实例分割等多种实例级别识别任务,并提供详细的功能介绍和模型训练指导。目前本项目仍在积极开发中,计划扩展至更多实例级别识别任务。
lightweight-human-pose-estimation.pytorch - 实时2D多人人体姿态估计的PyTorch实现
OpenPose2D多人体姿态估计CPU实时推断COCO数据集Github开源项目
该项目实现了实时2D多人人体姿态估计的训练代码,基于OpenPose优化技术,使其能够在CPU上进行实时推理且准确度几乎不变。此模型能够识别并连接18个关键点,在COCO 2017数据集的验证集上达到40%的AP。项目对多种深度学习框架和设备友好支持。
RSN - 高效聚合特征实现精确人体姿态估计
RSN姿态估计COCO数据集关键点检测计算机视觉Github开源项目
RSN项目提出Residual Steps Network姿态估计方法,通过聚合同一空间尺度特征获得精细局部表示,实现精确关键点定位。项目引入Pose Refine Machine注意力机制进一步优化关键点位置。RSN在COCO和MPII基准测试中取得领先结果,并在2019年COCO关键点挑战赛中获得第一名和最佳论文奖。该方法在多人姿态估计任务中展现出优异性能。
LeYOLO - 可扩展高效的目标检测CNN架构
LeYOLO目标检测神经网络计算效率COCO数据集Github开源项目
LeYOLO是一种新型目标检测模型系列,通过创新的CNN架构设计实现了计算效率与准确性的优化平衡。该模型引入高效主干网络缩放、快速金字塔架构网络和解耦网络中的网络检测头,大幅降低计算负载。在COCO验证集上,LeYOLO-Small仅使用4.5 GFLOP就达到38.2%的mAP,比YOLOv9-Tiny减少42%计算量。LeYOLO系列具有强大可扩展性,适用于从超低计算需求(<1 GFLOP)到高效高性能(>4 GFLOPs)的多种场景。
DWPose - 基于两阶段蒸馏的高效全身姿态估计方法
DWPose全身姿态估计两阶段蒸馏ControlNetCOCO数据集Github开源项目
DWPose是一种采用两阶段知识蒸馏的全身姿态估计方法。该项目提供多个不同规模的模型,在COCO-WholeBody数据集上表现出色。DWPose可替代OpenPose用于ControlNet,提升图像生成质量。项目开源了模型及相关代码,支持ONNX推理,并可与Stable Diffusion WebUI集成。
Stable-DINO - 基于稳定匹配的高性能目标检测模型
Stable-DINO目标检测深度学习计算机视觉COCO数据集Github开源项目
项目采用稳定匹配算法,结合检测变压器架构,在目标检测领域取得突破。模型在COCO数据集上实现63.8 AP,具有高性能、易用性和低计算开销等特点。Stable-DINO可与现有DETR变体整合,并在多种backbone下表现出色。该技术不仅适用于目标检测,还可扩展到实例分割等相关任务。
efficientdet - EfficientDet目标检测模型的PyTorch实现
EfficientDet目标检测深度学习计算机视觉COCO数据集Github开源项目
本项目提供了EfficientDet目标检测模型的PyTorch实现。支持COCO数据集的训练、评估和测试,在COCO val2017上达到0.314 mAP。包含预训练权重、视频测试功能和使用说明。适合研究人员和开发者参考使用。
blip-itm-large-coco - 创新的视觉语言预训练框架
图像-文本匹配开源项目BLIP模型HuggingfaceCOCO数据集视觉语言数据增强Github
BLIP项目展示了一种专注于提升视觉语言理解和生成的新型预训练框架。该框架通过引入生成和过滤机制管理网络图像文本数据的噪声,有效提升了图像文本匹配、图像描述和视觉问答等任务的表现,同时在视频语言任务中表现出卓越的泛化能力。
detr-resnet-50 - DETR 基于Transformer的创新目标检测模型
模型目标检测DETRCOCO数据集开源项目HuggingfaceResNet-50TransformerGithub
DETR-ResNet-50是一种创新的目标检测模型,融合Transformer架构与ResNet-50骨干网络。该模型采用端到端训练方法,简化了传统目标检测流程。经COCO 2017数据集训练后,DETR能高效检测和定位图像中的多个物体,在目标检测任务中实现42.0的平均精度(AP)。其简洁设计和卓越性能为计算机视觉领域带来新的可能。
yolov10m - 高效的实时目标检测系统
计算机视觉PyTorchCOCO数据集YOLOv10模型Github开源项目目标检测Huggingface
YOLOv10m是一个开源的目标检测项目,利用PyTorch模型和COCO数据集实现高效的计算机视觉解决方案。用户可以方便地进行训练、验证,并将模型上传至库,非常适合多种技术水平的使用者进行实时目标检测应用。
yolos-small - 基于Vision Transformer的高效物体检测模型
模型目标检测视觉模型COCO数据集YOLOS开源项目Huggingface图像识别Github
YOLOS是一种基于Vision Transformer的物体检测模型,在COCO 2017数据集上进行了微调。该模型采用DETR损失函数训练,使用双向匹配损失和匈牙利算法优化参数。YOLOS-small版本在COCO验证集上达到36.1 AP的性能,而基础版本可达到与DETR相当的42 AP。YOLOS为计算机视觉领域提供了一种简单高效的物体检测方案,适用于多种目标检测场景。
yolos-tiny - 轻量级Vision Transformer目标检测模型
模型视觉转换器目标检测YOLOSGithub图像处理COCO数据集Huggingface开源项目
YOLOS-tiny是基于Vision Transformer的轻量级目标检测模型,在COCO 2017数据集上微调。模型采用简单架构,通过双边匹配损失训练,可预测物体类别和边界框。在COCO验证集上达到28.7 AP,与复杂框架性能相当。YOLOS-tiny为资源受限场景提供高效目标检测方案,适用于各种计算机视觉应用。
mask2former-swin-large-coco-panoptic - 基于Transformer架构的高效图像分割模型
开源项目深度学习图像分割视觉模型模型Mask2FormerGithubCOCO数据集Huggingface
Mask2Former-Swin-Large是一个基于COCO数据集训练的图像分割模型,通过多尺度可变形注意力和掩码注意力机制,实现了实例、语义和全景分割的统一处理。相比MaskFormer具有更高的性能和计算效率
yolov10n - YOLOv10n:实时对象检测的创新技术
开源项目模型GithubHuggingfaceCOCO数据集PyTorch模型计算机视觉实时物体检测YOLOv10
YOLOv10n项目展示了对象检测的实时进展,结合计算机视觉与对象识别算法。其基于PyTorch的实现并支持COCO数据集用于训练与推理,保证了性能和应用的广泛性。简单的安装和模块调用,提供了快速的目标物体检测及识别功能,支持优化模型上传至相关平台,提升模型精度与效率。