#目标检测
ViTAE-Transformer-Remote-Sensing - 遥感图像解释的视觉变压器模型集合
遥感计算机视觉深度学习图像分割目标检测Github开源项目
ViTAE-Transformer-Remote-Sensing项目致力于遥感图像解释领域的视觉变压器模型研究。该项目涵盖遥感预训练、场景识别、语义分割和目标检测等多项任务,提出了RVSA和MTP等创新模型架构和训练方法。项目还开发了SAMRS大规模遥感分割数据集。这些成果有助于推进遥感基础模型的发展,为遥感应用提供技术支持。项目成果包括遥感预训练研究、场景识别模型、语义分割技术和目标检测算法。RVSA和MTP等创新架构提升了模型性能和效率。SAMRS数据集的开发为遥感分割任务提供了大规模训练资源。
QFormer - 四边形注意力机制提升视觉Transformer性能
Vision Transformer注意力机制计算机视觉图像分类目标检测Github开源项目
QFormer是一种创新的视觉Transformer模型,采用四边形注意力机制替代传统窗口注意力。该模型通过可学习的四边形回归模块,将默认窗口转换为目标四边形进行计算,从而更好地建模不同形状和方向的目标。在图像分类、目标检测、语义分割和人体姿态估计等多项视觉任务中,QFormer在保持低计算成本的同时,性能显著优于现有的视觉Transformer模型。
PointTinyBenchmark - 目标定位与检测的先进开源工具箱
目标检测目标定位点监督TinyPersonmmdetectionGithub开源项目
基于mmdetection的开源工具箱,专注目标定位和检测任务。项目实现了多项先进算法,如小目标检测尺度匹配、单点监督目标定位等。提供丰富资源,支持计算机视觉研究,尤其适用于小目标和点监督场景。为研究人员提供了强大工具,推进计算机视觉领域发展。
LD - 高效提升目标检测模型性能的定位知识蒸馏方法
目标检测知识蒸馏定位蒸馏COCOPASCAL VOCGithub开源项目
LD项目提出了一种创新的定位蒸馏方法,旨在高效传递教师模型的定位知识到学生模型。该方法重构了定位知识蒸馏过程,并引入了有价值定位区域的概念,有选择地蒸馏语义和定位信息。实验结果显示,在不增加推理时间的前提下,LD能将GFocal-ResNet-50模型在COCO数据集上的AP从40.1提升至42.1。这种简单有效的蒸馏方案适用于多种密集目标检测器。
Labelme2YOLO - LabelMe标注转YOLO格式数据集转换工具
Labelme2YOLO数据转换目标检测机器学习数据集处理Github开源项目
Labelme2YOLO是一个开源工具,用于将LabelMe标注工具的JSON格式转换为YOLO文本文件格式。它支持批量转换和单文件转换,能自动分割训练验证集,并可生成YOLOv5 v7.0实例分割数据集。通过简单的命令行操作,用户可获得YOLO格式的标签、图像文件和dataset.yaml配置。这个工具简化了数据集准备过程,方便了YOLO目标检测和实例分割任务的开展。
SOFT - 无需softmax的线性复杂度Transformer模型
Transformer自注意力机制线性复杂度图像分类目标检测Github开源项目
SOFT是一种新型Transformer模型,采用无需softmax的归一化自注意力机制,实现了线性复杂度和更强的泛化能力。该模型在图像分类、目标检测和语义分割等计算机视觉任务中表现优异。项目提供多种规模的预训练模型,适用于不同应用场景。开源代码包含完整的训练和评估流程,并附有详细说明,便于研究人员进行深入研究和应用开发。
Stable-DINO - 基于稳定匹配的高性能目标检测模型
Stable-DINO目标检测深度学习计算机视觉COCO数据集Github开源项目
项目采用稳定匹配算法,结合检测变压器架构,在目标检测领域取得突破。模型在COCO数据集上实现63.8 AP,具有高性能、易用性和低计算开销等特点。Stable-DINO可与现有DETR变体整合,并在多种backbone下表现出色。该技术不仅适用于目标检测,还可扩展到实例分割等相关任务。
efficientdet - EfficientDet目标检测模型的PyTorch实现
EfficientDet目标检测深度学习计算机视觉COCO数据集Github开源项目
本项目提供了EfficientDet目标检测模型的PyTorch实现。支持COCO数据集的训练、评估和测试,在COCO val2017上达到0.314 mAP。包含预训练权重、视频测试功能和使用说明。适合研究人员和开发者参考使用。
Transformer_Tracking - 视觉追踪中Transformer应用的全面综述和前沿动态
Transformer视觉跟踪目标检测计算机视觉深度学习Github开源项目
本项目汇总了Transformer在视觉追踪领域的应用进展,包括统一追踪、单目标追踪和3D单目标追踪等方向。内容涵盖最新研究论文、技术趋势分析、基准测试结果以及学习资源,为相关研究人员和从业者提供全面的参考信息。重点关注自回归时序建模、联合特征提取与交互等前沿技术,展现了视觉追踪的最新发展动态。
yoloair2 - 多模型集成的YOLO目标检测工具库
YOLOAir2目标检测模型改进PyTorchYOLO系列Github开源项目
YOLOAir2是一个基于PyTorch的YOLO系列算法工具库,集成了YOLOv7、YOLOv5等多种YOLO变体。它统一了模型代码框架和应用方式,支持用户自由组合backbone、neck和head模块,以构建定制化的目标检测网络。除目标检测外,该项目还整合了实例分割、图像分类等相关任务,为计算机视觉研究提供了便利的实验平台。
table-transformer - 基于深度学习的表格提取与结构识别模型
Table Transformer表格提取深度学习目标检测PubTables-1MGithub开源项目
Table Transformer (TATR)是一种基于对象检测的深度学习模型,用于从PDF和图像中提取表格。该模型支持表格检测、结构识别和功能分析,并提供完整的训练和推理代码。TATR还发布了在PubTables-1M等大规模数据集上的预训练模型权重,有助于实现高精度的表格提取和分析。
PedSurvey - 行人检测技术综述,从手工特征到深度学习的演进
行人检测深度学习计算机视觉目标检测多光谱检测Github开源项目
PedSurvey项目提供了一个全面的行人检测研究综述,涵盖单光谱和多光谱检测方法。该项目详细介绍了行人检测的流程、手工特征和深度学习方法、多光谱检测技术、数据集和挑战。项目还展示了不同算法在各种数据集上的性能,并发布了新的大规模数据集TJU-DHD-Pedestrian。这为研究人员提供了行人检测领域的最新进展和未来研究方向的参考。
Awesome-Anything - 通用AI方法的精选资源库
Segment Anything人工智能计算机视觉图像分割目标检测Github开源项目
Awesome-Anything是一个精选的通用人工智能资源库,涵盖对象分割、图像生成、3D处理、模型优化和多任务学习等领域。该项目汇集了各种创新技术和工具,为AI研究和开发提供全面支持,助力人工智能技术的进步。
awesome-tiny-object-detection - 微小目标检测研究前沿技术与资源汇总
目标检测小目标检测计算机视觉深度学习人工智能Github开源项目
该项目汇集微小目标检测领域的前沿研究成果和资源。内容涵盖普通微小目标、微小人脸和微小行人检测等多个子领域,同时提供相关数据集、综述文章和挑战赛信息。项目为研究人员和从业者提供了解该领域最新进展的重要参考。
trt_yolo_video_pipeline - 基于TensorRT的多路视频分析处理框架
TensorRT视频分析目标检测多路并发硬件编解码Github开源项目
TRT-VideoPipeline是一个基于TensorRT的多路视频分析处理框架。该项目支持YOLO系列模型推理,实现单模型多显卡多实例负载调度,并利用GPU进行数据处理。框架支持NVIDIA硬件编解码,可处理RTSP、RTMP、MP4等多种视频格式。其模块化设计便于功能节点的灵活组合,适应不同应用场景。
owlv2-large-patch14 - 开源零样本对象检测模型,支持多文本查询
目标检测Github开源项目OWLv2CLIPAI研究Huggingface图像识别模型
OWLv2模型是一种零样文本感知对象检测模型,使用CLIP作为多模态骨干,通过结合视觉和文本特征实现开词汇检测。模型去除了视觉模型的最终token池化层,并附加分类和框头,能够处理多文本查询,扩展了图像识别的应用潜力。研究者通过重新训练和微调CLIP,提高了其在公开检测数据集上的性能,有助于探讨计算机视觉模型的鲁棒性。
grounding-dino-tiny - Grounding DINO模型实现开放集目标检测的创新突破
模型目标检测零样本学习计算机视觉Github深度学习Grounding DINOHuggingface开源项目
Grounding DINO模型通过结合DINO与接地预训练技术,实现了开放集目标检测。该模型添加文本编码器,扩展了传统闭集检测模型的能力,可进行零样本目标检测。在COCO数据集上,Grounding DINO取得了52.5 AP的优秀成绩,为计算机视觉中未标记物体的识别提供了新的解决方案。
owlvit-base-patch32 - OWL-ViT:基于CLIP的开放词汇目标检测模型
模型目标检测Github零样本学习开源项目HuggingfaceCLIP计算机视觉OWL-ViT
OWL-ViT是一种基于CLIP的目标检测模型,专注于开放词汇和零样本检测任务。它结合了ViT结构的视觉编码器和因果语言模型的文本编码器,通过端到端训练实现了灵活的文本条件目标检测。该模型支持单一或多个文本查询,能够在未见过的类别上进行定位和分类,为计算机视觉领域的研究提供了新的工具和方向。
detr-resnet-50 - DETR 基于Transformer的创新目标检测模型
模型目标检测DETRCOCO数据集开源项目HuggingfaceResNet-50TransformerGithub
DETR-ResNet-50是一种创新的目标检测模型,融合Transformer架构与ResNet-50骨干网络。该模型采用端到端训练方法,简化了传统目标检测流程。经COCO 2017数据集训练后,DETR能高效检测和定位图像中的多个物体,在目标检测任务中实现42.0的平均精度(AP)。其简洁设计和卓越性能为计算机视觉领域带来新的可能。
detr-doc-table-detection - 基于DETR模型的文档表格智能识别系统
Huggingface模型目标检测深度学习表格检测Github开源项目DETR文档处理
detr-doc-table-detection是一个基于DETR架构的文档表格检测模型,能够精准识别有边框和无边框表格。该模型由Taha Douaji开发,采用ICDAR2019数据集训练,适用于各种文档分析场景。模型提供简洁的API接口,便于集成到现有系统中。作为文档信息提取的重要工具,它在提高数据处理效率方面具有显著优势。
owlv2-base-patch16-ensemble - 基于CLIP的开放词汇目标检测模型
模型目标检测Github零样本学习开源项目HuggingfaceCLIPOWLv2计算机视觉
OWLv2是一个基于CLIP的开放词汇目标检测模型。它使用ViT-B/16和masked self-attention Transformer分别作为图像和文本编码器,通过对比学习训练。该模型支持多文本查询的零样本目标检测,无需预定义类别。OWLv2在开放词汇目标检测任务中表现优异,为计算机视觉研究开辟了新方向。
yolov10m - 高效的实时目标检测系统
计算机视觉PyTorchCOCO数据集YOLOv10模型Github开源项目目标检测Huggingface
YOLOv10m是一个开源的目标检测项目,利用PyTorch模型和COCO数据集实现高效的计算机视觉解决方案。用户可以方便地进行训练、验证,并将模型上传至库,非常适合多种技术水平的使用者进行实时目标检测应用。
rtdetr_r50vd - 全新RT-DETR模型提升精度与速度的实时物体检测方案
GithubYOLO模型目标检测开源项目实时应用RT-DETRHuggingface变压器
RT-DETR是面向实时物体检测的创新模型,通过混合编码器和最小化不确定性查询选择,实现高精度和快速检测。模型在COCO和Objects365数据集训练,支持速度调整以适应多种场景。RT-DETR-R50/R101在COCO上分别取得53.1%和54.3%的平均精度,在T4 GPU上达到108和74 FPS,性能超过YOLO模型。
yolos-small - 基于Vision Transformer的高效物体检测模型
模型目标检测视觉模型COCO数据集YOLOS开源项目Huggingface图像识别Github
YOLOS是一种基于Vision Transformer的物体检测模型,在COCO 2017数据集上进行了微调。该模型采用DETR损失函数训练,使用双向匹配损失和匈牙利算法优化参数。YOLOS-small版本在COCO验证集上达到36.1 AP的性能,而基础版本可达到与DETR相当的42 AP。YOLOS为计算机视觉领域提供了一种简单高效的物体检测方案,适用于多种目标检测场景。
yolos-tiny - 轻量级Vision Transformer目标检测模型
模型视觉转换器目标检测YOLOSGithub图像处理COCO数据集Huggingface开源项目
YOLOS-tiny是基于Vision Transformer的轻量级目标检测模型,在COCO 2017数据集上微调。模型采用简单架构,通过双边匹配损失训练,可预测物体类别和边界框。在COCO验证集上达到28.7 AP,与复杂框架性能相当。YOLOS-tiny为资源受限场景提供高效目标检测方案,适用于各种计算机视觉应用。
yolov8s-table-extraction - 基于YoloV8的表格检测与提取模型
目标检测Github表格提取开源项目PyTorchYOLOv8Huggingface深度学习模型
该项目利用YoloV8技术为表格检测与提取提供了解决方案,适用于有边框及无边框的表格。通过ultralyticsplus库支持,模型安装与操作便捷,精度高达0.98376。项目包含使用指南及多种模型选择,适用于快速而可靠的表格数据提取,是数据分析和管理的理想工具。
rtdetr_r101vd_coco_o365 - 实时目标检测革新者RT-DETR超越传统性能表现
RT-DETRGithub目标检测Huggingface深度学习模型训练开源项目模型计算机视觉
RT-DETR通过混合编码器架构和不确定性最小化查询选择方法实现目标检测任务。在COCO数据集测试中,RT-DETR-R101版本达到56.2% AP精度,T4 GPU上处理速度为74 FPS。模型可通过调整解码器层数实现速度与精度的灵活平衡,为实时目标检测领域提供新的技术方案。
yolos-small-finetuned-license-plate-detection - 车牌识别微调模型提升物体检测能力
视觉TransformerYOLOS开源项目车牌识别目标检测模型模型微调HuggingfaceGithub
YOLOS小型模型经过微调适用于车牌检测,使用5200张图片进行训练,并在380张图片上验证,实现49.0的平均精度。模型支持PyTorch平台,并通过Python代码执行对象检测与边界框预测。其此前版本曾在ImageNet-1k和COCO 2017数据集上进行训练,具备卓越的识别性能。
yolov8m-table-extraction - 精准表格识别工具,适用于有框及无框表格检测
GithubKeremberke模型Ultralytics目标检测开源项目Yolo表格提取Huggingface
本项目采用YOLOv8与PyTorch技术,专注于表格检测,支持有框和无框样式。通过UltralyticsPlus库中的'keremberke/yolov8m-table-extraction'模型,可以简单地进行安装和预测分析,验证集上的平均精度为0.95194。项目提供详尽的使用指南,包括模型参数设置及推理步骤,帮助用户快速获取稳定的检测结果。
yolov5n-license-plate - 基于YOLOv5的轻量级车牌检测模型
PyTorchYOLOv5车牌识别目标检测机器视觉HuggingfaceGithub开源项目模型
基于YOLOv5架构开发的轻量级车牌检测模型,通过pip快速安装部署。模型支持自定义参数配置,包括置信度阈值和IoU阈值调节,并集成了数据增强功能。提供完整的模型加载、推理和微调接口,可用于实际车牌检测场景,在验证集上展现出较高的检测精度。
omdet-turbo-swin-tiny-hf - 实时开放词汇目标检测模型 支持批量多任务处理
目标检测Github开源项目零样本分类图像识别OmDet-TurboHuggingface机器学习模型
这是一款基于Transformer的开放词汇目标检测模型。它支持零样本检测,能够识别指定的任意类别目标。该模型的特色在于支持批量处理多张图像,允许为每张图像设置不同的检测类别和任务描述。通过简洁的API接口,该模型可以方便地集成到各种计算机视觉应用中,实现高效的实时目标检测。
detr-resnet-50-panoptic - DETR模型:结合ResNet-50的端到端目标检测与全景分割
Transformer计算机视觉开源项目目标检测模型DETRHuggingface语义分割Github
DETR-ResNet-50是一种创新的目标检测模型,融合了Transformer和卷积神经网络技术。该模型在COCO数据集上训练,支持端到端的目标检测和全景分割。通过100个对象查询机制,DETR实现了高效准确的目标识别。在COCO 2017验证集上,模型展现出优秀性能:框AP为38.8,分割AP为31.1,全景质量(PQ)达43.4。这一模型为计算机视觉任务提供了新的解决方案。
yolov5m-license-plate - 车牌检测的YOLOv5模型支持Pytorch适用于多种视觉任务
PyTorchYOLOv5深度学习Huggingface开源项目模型目标检测Github车牌识别
YOLOv5m-license-plate项目提供基于YOLOv5技术的车牌检测模型,利用Pytorch进行对象检测,适用于多种计算机视觉任务。开发者可运用简单的Python代码实现精准车牌识别,并支持通过自定义数据集进行微调以提升效果。在keremberke数据集上的精度高达0.988,适合快速、可靠的车牌检测应用。访问项目主页获取更多信息和下载。
相关文章
BoxMOT: 先进的多目标跟踪解决方案
2024年08月30日
TensorFlow实现YOLOv3目标检测算法:原理、实现与应用
2024年08月30日
Ultralytics YOLOv8:革新计算机视觉的尖端AI模型
2024年08月30日
深度学习目标检测技术的发展与应用
2024年08月30日
YOLOv3:实时目标检测算法的革新者
2024年08月30日
DAMO-YOLO: 快速准确的目标检测新方法
2024年08月30日
FCOS:全卷积一阶段目标检测算法的全面解析
2024年09月04日
EasyCV: 阿里巴巴开源的一站式计算机视觉工具箱
2024年09月04日
飞桨产业级模型库:推动AI技术在各行业的落地应用
2024年08月30日