#对象检测

gluon-cv - 计算机视觉领域的深度学习模型工具包,支持PyTorch和MXNet框架
Github开源项目深度学习计算机视觉对象检测图像分类GluonCV
GluonCV是一个面向工程师、研究人员和学生的计算机视觉深度学习工具包,支持快速原型设计。其主要功能包括可复现SOTA结果的训练脚本、对PyTorch和MXNet框架的支持、大量预训练模型,以及简化实现的API设计和社区支持。用户还可以通过AutoGluon执行图像分类和目标检测任务。
sahi - 支持小物体检测和大图像推理的轻量级视觉工具库
Github开源项目计算机视觉对象检测实例分割SAHIyolov5
SAHI是一款轻量级视觉工具库,专注于解决小物体检测和大图像推理难题,支持多种框架如YOLOv5、MMDetection和Detectron2。提供丰富的命令行工具及COCO数据集处理功能,适用于精细化的计算机视觉应用,特别在复杂图像处理中表现优异。通过多种教程和示例,帮助开发者快速上手并优化视觉任务。
techniques - 一系列用于卫星与航空图像处理的深度学习技术,包括分类、分割和对象检测等多种关键技术
Github开源项目深度学习图像分割对象检测图像分类卫星图像
本网站详细介绍一系列用于卫星与航空图像处理的深度学习技术,包括分类、分割和对象检测等多种关键技术。这些技术有助于处理复杂的图像尺寸和多元的对象类别,适用于城市规划、环境监测等多个领域。
models - 探索最先进的机器学习模型与技术
Github开源项目对象检测机器学习模型图像分类ONNX Model Zoo语言处理
ONNX Model Zoo是一个开源平台,汇集了各种预训练且处于技术前沿的机器学习模型,涵盖计算机视觉、自然语言处理等多个领域。旨在为开发者、研究人员和技术爱好者提供高效实用的AI工具,加速机器学习技术的应用和发展。此外,ONNX Model Zoo支持多种框架和工具,通过共同的文件格式和操作集,促进了AI开发的灵活性和互操作性。平台以开放性和社区驱动的特性为己任,含有诸如图像分类、对象检测等主要模型,并通过简易接口及高级工具满足不同用户需求,使其既适应初学者也满足专业人士的需求。
yolort - 简易高效的YOLOv5目标检测工具
Github开源项目对象检测ONNXTensorRTYOLOv5yolort
yolort项目致力于简化和优化YOLOv5的训练与推理。采用动态形状机制,结合预处理和后处理,支持LibTorch、ONNX Runtime、TVM、TensorRT等多种后端的轻松部署。项目遵循简洁设计理念,安装与使用便捷,支持通过PyPI和源码安装。提供丰富的推理接口示例和详细文档,使目标检测更为轻松,适用于广泛的应用场景。
ImageAI - 使用简便的代码实现深度学习和计算机视觉功能的开源Python库
Github开源项目深度学习计算机视觉对象检测ImageAI自定义模型训练
ImageAI是一款开源的Python库,帮助开发者使用简便的代码实现深度学习和计算机视觉功能。该库支持图像预测、目标检测、视频检测及对象跟踪等多种功能。新版本引入了PyTorch后端和TinyYOLOv3模型训练,提升了性能并扩展了功能。用户还可以训练自定义模型识别新对象。有关如何安装和使用ImageAI的详细信息,请参阅项目文档和指南。
ComfyUI-YoloWorld-EfficientSAM - YOLO-World + EfficientSAM for ComfyUI 的非官方实现,提供高效的对象检测与实例分割功能
Github开源项目对象检测ComfyUI实例分割YOLO-WorldEfficientSAM
该项目非官方实现了YOLO-World和EfficientSAM,通过融合这两个模型,提供高效的对象检测与实例分割功能。版本V2.0新增了蒙版分离与提取功能,支持指定蒙版单独输出,可处理图像和视频。项目特点包括支持加载多种YOLO-World和EfficientSAM模型,提供检测框厚度、置信度阈值、IoU阈值等配置选项,以提升检测与分割的精准性。详细的视频演示和安装指南,使用户能够轻松上手,体验高效的图像处理能力。
visionscript - 抽象编程语言,用于快速执行计算机视觉任务
Github开源项目Python计算机视觉对象检测图像分类VisionScript
VisionScript是一个基于Python的编程语言,专门用于快速执行目标检测、分类和分割等常见计算机视觉任务。其简洁的语法允许用户通过少量代码完成复杂的视觉操作,并支持在交互式网络笔记本中运行。VisionScript兼容多个知名模型,包括CLIP、YOLOv8和BLIP,适合新手上手。无论是执行零样本分类,还是在照片中替换特定对象,VisionScript均能提供高效解决方案。
a-PyTorch-Tutorial-to-Object-Detection - PyTorch物体检测模型教程与实现
Github开源项目PyTorch卷积神经网络对象检测多尺度特征图单发多框检测
本教程详细指导如何使用PyTorch实现物体检测模型,包括模型构建、训练、评估和推理等环节。采用高效的单次多框检测(SSD)算法,介绍多尺度特征图、先验框和非极大值抑制等关键概念。适合具备PyTorch和卷积神经网络基础的学习者,教程提供中文翻译版便于理解和应用。
yolor - 改进的多任务统一网络实时对象检测模型
Github开源项目深度学习对象检测多任务学习YOLORYOLOv4
该项目实现了一个新型多任务统一网络,基于最新论文支持多任务并在COCO数据集中的实时对象检测上表现出色。优化后的YOLOR模型在测试和验证中均显示出较高的AP值和运行速度,适用于多种实时应用场景。项目提供了详细的安装、训练和测试指南,支持Docker和Colab环境,适合研究人员和开发者在复杂场景中进行高效的对象检测。
viseron - 本地自托管NVR和AI计算机视觉软件
Github开源项目面部识别对象检测DockerViseron运动检测
Viseron是一款本地自托管的NVR和AI计算机视觉软件,提供物体检测、运动检测和人脸识别等功能,适用于家庭、办公室等场所的监控。用户只需运行Docker容器并通过内置Web界面编辑配置文件即可轻松上手。项目支持多种组件,并欢迎社区贡献。
AndroidTensorFlowMachineLearningExample - Android应用集成TensorFlow的详细教程
Github开源项目AndroidTensorFlow机器学习对象检测示例项目
此项目提供了在Android应用中集成TensorFlow的详细指南。开发者可以学习如何构建和使用TensorFlow项目及其库文件(.so和.jar文件),通过具体示例了解如何使用TensorFlow进行物体检测,包括处理从相机拍摄的图像。适合希望将机器学习技术应用在移动设备上的开发者。
ml-cvnets - 灵活的计算机视觉模型训练库
Github开源项目模型训练计算机视觉对象检测图像分类CVNets
CVNets是一个计算机视觉库,支持研究人员和工程师训练和评估多种计算机视觉模型,包括对象分类、对象检测和语义分割等任务。最新版本引入了直接处理文件字节的Transformer和高效在线增强,支持如Mask R-CNN、EfficientNet、Swin Transformer和ViT等模型,并增强了蒸馏功能。
Android-TensorFlow-Lite-Example - 在Android应用中集成TensorFlow Lite的介绍,用于通过相机图像进行对象检测
Github开源项目应用程序Android机器学习对象检测TensorFlow Lite
该项目展示了如何在Android应用中集成TensorFlow Lite,用于通过相机图像进行对象检测。这是一个适合学习和实际应用的机器学习示例项目。
TF-ID - 开源AI模型助力学术论文表格和图像高效提取
Github开源项目表格识别学术论文图像识别对象检测TF-ID
TF-ID是一系列用于从学术论文中提取表格和图像的目标检测模型。项目开源了训练代码、模型权重和标注数据集。TF-ID包含四个版本,分为基础和大型模型,可提取有无标题文本的表格和图像。模型基于Florence-2微调,测试准确率达98.06%。项目提供使用示例和完整训练指南,方便研究者复现和应用。
Flypix - 地理空间图像智能识别与分析平台
AI模型AI工具对象检测地理空间分析FlyPix地球观测
Flypix是一个专业的地理空间分析平台,利用AI技术快速识别和分析图像中的物体。适用于建筑、港口、农业等多个行业,可将分析时间缩短99.7%,提供高效的地理空间数据处理解决方案。
lang-segment-anything - 基于文本提示的开源图像分割工具
Github开源项目深度学习计算机视觉图像分割对象检测Language Segment-Anything
Lang-segment-anything是一个开源项目,结合实例分割和文本提示功能,用于生成图像中特定对象的掩码。该工具基于Meta的segment-anything模型和GroundingDINO检测模型,实现了零样本文本到边界框的对象检测。项目支持自定义文本提示进行精确对象分割,并可在Lightning AI应用平台上部署。这一工具为图像分析和对象识别提供了新的解决方案。
YoloDotNet - 基于C#的Yolov8和Yolov10实时目标检测库
Github开源项目深度学习性能优化图像处理对象检测YoloDotNet
YoloDotNet是基于.NET 8的C#库,支持Yolov8和Yolov10模型进行实时目标检测。该库集成ML.NET和ONNX运行时,并支持CUDA GPU加速,提供分类、目标检测、OBB检测、分割和姿态估计等功能。YoloDotNet在CPU和GPU上均可高效运行,适用于各种计算机视觉应用场景。
owlv2-base-patch16-finetuned - 介绍OWLv2模型在零样本物体检测中的应用与发展
Github开源项目计算机视觉模型对象检测CLIPHuggingfaceOWLv2零样本检测
OWLv2模型是用于零样本物体检测的一个创新模型,使用CLIP作为多模态基础,同时采用ViT型Transformer以提取视觉特征,并通过因果语言模型获取文本特征。此模型的最大特点是其开放词汇分类功能,通过将固定分类层权重替换为文本模型中的类别名称嵌入实现。在常见检测数据集上,CLIP从头训练并微调,以学习精确的对象检测方法。此工具为AI研究人员提供了在计算机视觉领域探索鲁棒性、泛化和其他能力的机会。
conditional-detr-resnet-50 - 基于条件机制增强ResNet-50的图像检测模型
Github开源项目模型对象检测HuggingfaceResNet-50COCO 2017快速训练收敛Conditional DETR
Conditional DETR结合了ResNet-50,通过条件交叉注意力机制加速COCO 2017数据集上的训练收敛。在目标检测任务中,该模型解决了训练收敛缓慢的问题,提升了特征提取和目标分类的效率。通过条件空间查询机制,模型能够更高效地定位目标区域,提高了训练速度。在R50和R101骨干网下加速6.7倍,DC5-R50和DC5-R101下加速10倍,并支持PyTorch。
D-FINE - 精细化分布优化在实时物体检测中的应用
Github开源项目DETR对象检测D-FINEFine-grained Distribution Refinement自蒸馏
D-FINE是一款实时物体检测工具,通过重新定义DETRs中的边框回归任务为精细化分布优化(FDR)以及引入全局最优定位自蒸馏(GO-LSD),在不增加推理和训练成本的情况下,提升了检测性能。它在复杂街道场景下具有出色的定位能力,对于逆光、运动模糊和密集人群等挑战表现优异。最新版本增强了预训练模型的性能并提供了自定义数据集微调和输入尺寸调整的配置。
deformable-detr-DocLayNet - Deformable DETR模型实现文档布局分析 基于DocLayNet数据集
Github开源项目图像处理模型对象检测Huggingface文档布局分析DocLayNetDeformable DETR
这是一个基于Deformable DETR架构的文档布局分析模型,在DocLayNet数据集上训练。该模型可检测和分类11种文档布局元素,在DocLayNet测试集上实现57.1 mAP。它采用transformer编码器-解码器结构,结合CNN主干网络,使用双向匹配损失训练。此模型可用于文档布局分析任务,也可集成到Aryn分区服务等应用中。
yolov10x - 高效的实时端到端物体检测工具
Github开源项目PyTorch深度学习计算机视觉模型对象检测HuggingfaceYOLOv10
YOLOv10是一个高效的端到端物体检测开源项目,支持在COCO等数据集上进行准确的训练和验证。通过整合PyTorch模型资源,用户可简便地安装和应用。本项目支持从预训练模型进行迁移学习,适合多种计算机视觉应用需求,是追求速度与精度的理想选择。
TF-ID-large-no-caption - 学术文献中图表精准识别工具
Github开源项目学术论文模型图像识别对象检测HuggingfaceTF-ID表格提取
TF-ID项目专注于精准提取学术论文中的表格和图形,由高效的TF-ID-large-no-caption版本支持。该项目来自Yifei Hu,基于Hugging Face的Florence-2,具备97%以上的识别准确率。适合需要处理大量学术图表的研究工作者。