#图像分割

Segment Anything Model - 一键智能识别与分割图像中的对象
AI模型训练热门AI工具AI开发Meta AISegment Anything Model零次训练图像分割
Meta AI推出的Segment Anything Model (SAM),能够一键从图像中分割任意对象。此AI模型具备零样本泛化能力,可处理未知对象和图像,适用于视频追踪、图像编辑等多种应用场景。
techniques - 一系列用于卫星与航空图像处理的深度学习技术,包括分类、分割和对象检测等多种关键技术
Github开源项目深度学习图像分割对象检测图像分类卫星图像
本网站详细介绍一系列用于卫星与航空图像处理的深度学习技术,包括分类、分割和对象检测等多种关键技术。这些技术有助于处理复杂的图像尺寸和多元的对象类别,适用于城市规划、环境监测等多个领域。
PaddleSeg - 高性能端到端图像分割工具套件,支持从训练到部署
Github开源项目图像分割飞桨PaddleSegPaddleXAI套件
PaddleSeg是一款基于飞桨PaddlePaddle的图像分割套件,内含超过45种模型算法和140多个预训练模型,支持语义分割、交互式分割、Matting及全景分割。应用场景广泛,包括医疗、工业、遥感等。具备高精度、高性能、模块化以及全流程特性,兼容多个操作系统如Linux、Windows、MacOS,适用于多种硬件的训练和部署。
dress-code - 高分辨率虚拟试衣数据集,涵盖53792件服装和107584张图像
Github开源项目图像分割虚拟试穿Deep LearningOpenPoseDress Code Dataset
Dress Code数据集提供高分辨率的虚拟试衣图像,包含来自YOOX NET-A-PORTER目录的53792件服装和107584张图像。数据集分为上身、下身和连衣裙三类,分辨率为1024x768,并附有关键点、骨架图、人类标签图和稠密姿态信息。请注意,使用此数据集需遵守相关条款,且仅对非私人公司开放。更多信息,请访问相关链接。
DINO - 降噪锚框实现端到端目标检测
Github开源项目深度学习目标检测图像分割COCODINO
DINO采用改良的降噪锚框,提供先进的端到端目标检测功能,并在COCO数据集上实现了优异的性能表现。模型在较小的模型和数据规模下,达到了63.3AP的优秀成绩。DINO具有快速收敛的特点,使用ResNet-50主干网络仅在12个周期内即可达到49.4AP。项目还提供丰富的模型库和详细的性能评估,用户可以通过Google Drive或百度网盘获取模型检查点和训练日志。
sports - 体育中的对象检测与影像分析
Github开源项目图像分割物体检测关键点检测Roboflowsports
该项目旨在通过对象检测、图像分割和关键点检测等技术,解决体育分析中的多项挑战。提供的体育数据集和工具包能够优化球体追踪、球员号码识别、球员追踪和重新识别,以及相机校准功能。用户可以在Python环境下安装源代码,并利用开源数据集推进体育数据分析的发展。
Grounded-SAM-2 - 多模态视频目标检测与分割框架
Github开源项目目标检测图像分割SAM 2Grounding DINO视频追踪
Grounded-SAM-2是一个开源项目,结合Grounding DINO和SAM 2技术,实现图像和视频中的目标检测、分割和跟踪。该项目支持自定义视频输入和多种提示类型,适用于广泛的视觉任务。通过简化代码实现和提供详细文档,Grounded-SAM-2提高了易用性。项目展示了开放世界模型在处理复杂视觉任务中的潜力,为研究人员和开发者提供了强大的工具。
segment-anything-fast - 高性能图像分割模型加速框架
Github开源项目PyTorch图像分割推理优化Segment AnythingAI模型加速
segment-anything-fast是基于Facebook's segment-anything的优化版本,专注于提高图像分割模型的性能。通过整合bfloat16、torch.compile和自定义Triton内核等技术,该项目显著提升了模型推理速度。它支持多种优化方法,如动态int8对称量化和2:4稀疏格式,同时保持了简单的安装和使用流程。这使得开发者能够轻松替换原始segment-anything,实现更高效的图像分割。该优化框架适用于需要实时或大规模图像分割处理的应用,如自动驾驶、医疗影像分析或视频编辑等领域,可显著提高处理效率和资源利用率。
SLiMe - 基于Stable Diffusion的单样本图像分割方法
Github开源项目PyTorch深度学习Stable Diffusion图像分割SLiMe
SLiMe是一种基于Stable Diffusion的单样本图像分割方法,通过单个训练样本实现准确分割。项目提供PyTorch实现,包含训练、测试和数据处理指南。SLiMe在PASCAL-Part和CelebAMask-HQ数据集上表现优异,为图像分割研究提供新思路。项目开源代码,支持自定义数据集训练和测试。SLiMe采用图像分块处理技术,提高分割精度。研究者可基于此探索更多单样本学习应用场景。
FastSAM - 全景分割模型 速度提升50倍且性能可比SAM
Github开源项目深度学习AI模型计算机视觉图像分割Fast Segment Anything
FastSAM是一款基于CNN的高效全景分割模型。仅使用SAM数据集2%的数据,就实现了与SAM相当的性能,同时运行速度提升50倍。支持一切模式、文本提示、框选和点选等多种交互方式。在边缘检测、目标检测等下游任务中,FastSAM展现出优异的零样本迁移能力,为计算机视觉研究开辟新方向。
segment-anything-2 - 新一代图像和视频分割基础模型
Github开源项目AI模型计算机视觉图像分割SAM 2视频分割
SAM 2是Meta AI研发的图像和视频分割基础模型,扩展了SAM的功能。它采用transformer架构和流式内存,实现实时视频处理。通过模型循环数据引擎,研究团队构建了大规模视频分割数据集SA-V。SAM 2在多种视觉任务中展现出卓越性能,为计算机视觉领域带来新的可能。
EVF-SAM - 基于早期视觉语言融合的文本引导图像分割模型
Github开源项目图像分割语义分割SAM模型EVF-SAM视觉语言融合
EVF-SAM项目通过早期视觉语言融合技术扩展了SAM模型的能力,实现高精度的文本引导图像分割。该模型在T4 GPU上可在几秒内完成推理,计算效率高。最新版本基于SAM-2支持视频分割,展现了零样本文本引导视频分割能力。EVF-SAM在多个数据集上表现出色,为计算机视觉领域提供了新的解决方案。
groundingLMM - 结合视觉分割和对话生成的多模态AI模型
Github开源项目多模态模型图像分割对话生成GLaMM视觉基础
GLaMM是一种新型多模态AI模型,将自然语言生成与对象分割技术相结合。该模型提出了接地对话生成任务,并基于GranD数据集进行训练。GLaMM能够处理图像和区域级输入,支持视觉对话和指代表达分割等功能,为视觉语言交互提供了新的解决方案。
Grounded-Segment-Anything - 融合文本引导的开放世界目标检测与分割工具
Github开源项目目标检测图像分割视觉AIGrounded-SAM
Grounded-Segment-Anything项目结合了Grounding DINO和Segment Anything模型的优势,能够根据文本提示检测和分割图像中的任意物体。该工具为开放世界场景中的目标检测和分割任务提供了有效解决方案,支持自动标注、3D人体网格重建和图像编辑等多种应用。通过提高检测和分割精度并提升工作效率,Grounded-Segment-Anything为计算机视觉领域带来了显著进展。
BiRefNet - 高分辨率图像分割的双边参考网络
Github开源项目Hugging Face图像分割高分辨率双边参考BiRefNet
BiRefNet是一个专注于高分辨率图像分割的创新网络。该项目在DIS、COD和HRSOD等多个高分辨率任务中取得了领先成果。BiRefNet采用双边参考机制提升分割精度,支持HuggingFace一行代码加载。项目开源了完整代码实现、预训练模型,并提供在线演示。这一工作为高分辨率图像分割研究带来了新的思路。
segmentation_models.pytorch - 基于PyTorch的神经网络图像分割库
Github开源项目PyTorch预训练模型神经网络图像分割编码器
segmentation_models.pytorch 是一个基于 PyTorch 的图像分割库,提供9种分割模型架构和124种编码器。该库 API 简洁,支持预训练权重,并包含常用评估指标和损失函数。它适用于研究和实际应用中的各种图像分割任务,是图像分割领域的实用工具。
MaskDINO - 统一的Transformer架构革新目标检测与分割任务
Github开源项目深度学习目标检测图像分割transformerMask DINO
MaskDINO项目提出统一的Transformer架构,整合目标检测、全景分割、实例分割和语义分割任务。该架构实现检测与分割的协同,并在COCO、ADE20K和Cityscapes等主要数据集上取得领先成果。在相同条件下,MaskDINO的性能超越了现有方法,展现出在视觉任务中的卓越潜力。
PixelLM - 像素级推理与理解的大型多模态模型
Github开源项目图像分割多模态大模型PixelLM像素级推理MUSE数据集
PixelLM是一种创新的大型多模态模型,专注于像素级推理和理解。它能处理开放集目标和复杂推理任务,同时保持LMM的基本结构。通过轻量级像素解码器和分割码本,PixelLM实现高效mask生成。项目同时推出MUSE数据集,为多目标推理分割研究提供高质量基准。在多个基准测试中,PixelLM展现出优越性能。
Medical-SAM2 - 基于SAM2框架的2D和3D医学图像精准分割模型
Github开源项目深度学习计算机视觉图像分割医学影像Medical SAM 2
Medical-SAM2是一个开源的医学图像分割模型,基于SAM2框架开发。该模型支持2D和3D医学图像分割,适用于REFUGE眼底图像和BTCV腹部多器官等数据集。项目提供环境配置、数据准备和训练步骤指南,以及预训练权重。Medical-SAM2为医学图像分析研究提供了实用的工具和资源。
efficientvit - EfficientViT多尺度线性注意力用于高分辨率密集预测
Github开源项目深度学习计算机视觉图像分割模型优化EfficientViT
EfficientViT是一种新型ViT模型,专注于高效处理高分辨率密集预测视觉任务。其核心是轻量级多尺度线性注意力模块,通过硬件友好操作实现全局感受野和多尺度学习。该项目提供图像分类、语义分割和SAM等应用的预训练模型,在性能和效率间达到平衡,适合GPU部署和TensorRT优化。
LabelConvert - 数据集格式转换工具,目标检测与图像分割领域的多功能助手
Github开源项目目标检测图像分割开源工具LabelConvert数据集格式转换
LabelConvert是一个专注于目标检测和图像分割领域的数据集格式转换工具。它支持labelme、labelImg、YOLO、PubLayNet和COCO等主流格式之间的相互转换,简化了数据预处理流程。该工具兼容Linux、Windows和Mac平台,支持Python 3.6及以上版本,为计算机视觉研究和开发提供了高效的数据处理解决方案。
SoM - 创新视觉提示技术提升GPT-4V图像理解能力
Github开源项目图像分割GPT-4V视觉提示Set-of-Mark视觉推理
Set-of-Mark (SoM)通过在图像上叠加可定位标记,增强GPT-4V的视觉理解能力。该技术改善了模型在多种视觉任务中的表现,实现跨图像引用、问题解决和知识共享等应用。SoM为视觉AI领域开辟新方向,使GPT-4V能更准确地分析复杂视觉信息。
X-Decoder - 像素、图像和语言的统一解码模型
Github开源项目计算机视觉图像分割多任务学习X-Decoder开放词汇分割
X-Decoder是一个通用解码模型,可生成像素级分割和标记级文本。该模型在多个数据集上实现了开放词汇分割和指代分割的最佳结果,在分割和视觉语言任务上表现出色。X-Decoder支持语义、实例和全景分割,以及图像描述、图像-文本检索等多种任务。此外,它还能进行区域检索、指代描述、图像编辑等零样本任务组合。
MobileSAM - 高效轻量化图像分割模型,适用于移动设备
Github开源项目深度学习AI模型计算机视觉图像分割MobileSAM
MobileSAM是一种轻量级图像分割模型,专为移动应用优化。它保持了与原始SAM相当的性能,同时大幅减少了模型参数和推理时间。通过将ViT-H编码器替换为TinyViT,MobileSAM将参数量从615M降至9.66M,推理速度从456ms提升至12ms。该项目提供完整的训练和使用文档,支持ONNX导出,可轻松集成到现有SAM项目中。
SegmentAnything3D - Segment Anything技术在3D场景中的创新应用
Github开源项目计算机视觉图像分割3D感知点云处理Segment Anything 3D
SAM3D项目将Segment Anything技术扩展到3D感知领域,通过将2D图像分割信息转移到3D空间,为3D场景理解提供新思路。该项目结合SAM生成掩码、点云合并和区域合并等技术,实现2D到3D的有效转换。SAM3D不仅拓展了计算机视觉的应用范围,也为3D场景分析和理解开辟了新的研究方向。
detectron2 - Facebook开源的高性能目标检测和图像分割框架
Github开源项目深度学习目标检测计算机视觉图像分割Detectron2
Detectron2是Facebook AI Research开发的开源计算机视觉库,提供先进的目标检测和图像分割算法。它支持全景分割、Densepose和级联R-CNN等功能,可用于研究项目和生产应用。该库训练速度快,支持模型导出,并提供大量预训练模型。Detectron2为研究人员和开发者提供了强大而灵活的工具,推动计算机视觉技术的发展和应用。
segment-anything-video - MetaSeg 开源图像和视频分割框架
Github开源项目深度学习计算机视觉图像分割Segment AnythingMetaSeg
MetaSeg是Segment Anything模型的封装版本,提供自动和手动图像视频分割功能。该项目支持多种预训练模型,可与SAHI和FalAI等工具集成,实现物体分割。MetaSeg支持pip安装,提供丰富的API接口,适用于图像分析和处理任务。
segment-anything - 革命性AI模型实现高效图像分割
Github开源项目深度学习AI模型计算机视觉图像分割Segment Anything
Segment Anything是Meta AI Research开发的图像分割模型,能通过简单输入生成高质量物体遮罩。该模型经过大规模数据训练,具备强大的零样本分割能力。它提供多种版本,支持ONNX导出,并附有示例和文档,便于集成应用。
Recally - macOS截图管理应用 实现高效组织与智能搜索
AI工具图像分割数据加密Recally截图管理实时OCR
Recally是专为macOS设计的截图管理应用,提供实时OCR、图像分割和AI驱动的视觉搜索功能。应用完全离线运行,采用高级加密技术保护数据安全。支持URL链接功能,可通过AppleScript获取Safari和Chrome当前标签页URL并关联截图。Recally为macOS用户提供了安全、高效的截图管理解决方案,简化了截图的组织、浏览和搜索过程。
a-person-mask-generator - 针对Automatic1111和ComfyUI的人物图像自动分割遮罩扩展
Github开源项目图像分割ComfyUIAutomatic1111a-person-mask-generator自动生成遮罩
这是Automatic1111和ComfyUI的扩展插件,利用Google的多类自拍分割模型自动为图像生成背景、头发、身体、脸部和衣服的遮罩。支持面部特征点遮罩输出,适用于图像到图像处理。插件安装简单,提供了详细的使用示例,可用于精确的图像编辑和处理。
lang-segment-anything - 基于文本提示的开源图像分割工具
Github开源项目深度学习计算机视觉图像分割对象检测Language Segment-Anything
Lang-segment-anything是一个开源项目,结合实例分割和文本提示功能,用于生成图像中特定对象的掩码。该工具基于Meta的segment-anything模型和GroundingDINO检测模型,实现了零样本文本到边界框的对象检测。项目支持自定义文本提示进行精确对象分割,并可在Lightning AI应用平台上部署。这一工具为图像分析和对象识别提供了新的解决方案。
MP-Former - 基于mask-piloted机制的先进图像分割模型
Github开源项目Transformer图像分割CVPR 2023MP-FormerMask2Former
MP-Former是一种新型图像分割transformer模型,采用mask-piloted机制改进分割效果。项目包含训练和评估代码,适用于实例分割和全景分割任务。基于Mask2Former架构开发,在COCO数据集上展现出良好性能。项目提供了复现论文实验的脚本,为计算机视觉研究提供参考实现。MP-Former在CVPR 2023上发表,提供了no noise和all-layer MP训练设置,12轮训练后在实例分割任务上达到40.15 AP。项目代码开源,安装过程与Mask2Former相同,便于研究者快速上手和进行进一步探索。
x-unet - 集成高效注意力机制的先进U-Net框架
Github开源项目深度学习神经网络计算机视觉图像分割U-Net
x-unet是一个基于U-Net架构的开源项目,融合了高效注意力机制和最新研究成果。支持2D和3D图像处理,提供嵌套U-Net深度和上采样特征图合并等灵活配置。适用于生物医学图像分割和显著对象检测等任务,是一个功能强大的深度学习工具。
grounded-segment-anything-colab - 图像分割与编辑工具 支持多种inpainting模型
Github开源项目图像分割ColabAI视觉inpaintingGrounded-Segment-Anything
grounded-segment-anything-colab是一个基于IDEA-Research项目的图像处理工具,集成了图像分割和编辑功能。该工具支持多种inpainting模型,包括runwayml/stable-diffusion-inpainting和自定义16位模型。项目提供Colab教程,方便用户进行图像分割和编辑操作。此工具为图像处理提供了灵活高效的解决方案。
Segment-Anything-CLIP - 整合Segment-Anything与CLIP的图像分析框架
人工智能Github开源项目计算机视觉图像分割CLIPsegment-anything
项目通过结合Segment-Anything的分割能力和CLIP的识别功能,构建了一个高效的图像分析框架。系统可自动生成多个分割掩码,并对每个掩码区域进行分类。这种创新方法不仅提高了图像分析的精度,还为计算机视觉领域的研究和应用开辟了新途径。
ViTAE-Transformer-Remote-Sensing - 遥感图像解释的视觉变压器模型集合
Github开源项目深度学习目标检测计算机视觉图像分割遥感
ViTAE-Transformer-Remote-Sensing项目致力于遥感图像解释领域的视觉变压器模型研究。该项目涵盖遥感预训练、场景识别、语义分割和目标检测等多项任务,提出了RVSA和MTP等创新模型架构和训练方法。项目还开发了SAMRS大规模遥感分割数据集。这些成果有助于推进遥感基础模型的发展,为遥感应用提供技术支持。项目成果包括遥感预训练研究、场景识别模型、语义分割技术和目标检测算法。RVSA和MTP等创新架构提升了模型性能和效率。SAMRS数据集的开发为遥感分割任务提供了大规模训练资源。