#语义分割

lidar-bonnetal - LiDAR点云语义分割开源框架

LiDAR-Bonnetal语义分割点云深度学习SemanticKITTIGithub开源项目

LiDAR-Bonnetal是一个开源的LiDAR点云语义分割框架，使用距离图像作为中间表示。该项目提供训练管道和多个基于SemanticKITTI数据集的预训练模型。框架支持多种网络架构，如SqueezeNet和DarkNet变体，并提供了这些模型在SemanticKITTI数据集上的预训练权重和预测结果。虽然项目已归档，但其代码和模型仍可用于研究和学习LiDAR数据处理技术。研究者可以利用这些资源进行点云语义分割的相关研究。

Cam2BEV - 深度学习实现多视角车载图像到语义分割鸟瞰图转换

Cam2BEV语义分割鸟瞰图深度学习自动驾驶Github开源项目

该项目提出一种深度学习方法,将多个车载摄像头图像转换为语义分割鸟瞰图(BEV)。采用合成数据集训练,可良好泛化到真实场景。方法使用语义分割图像作为输入,缩小了仿真与真实数据的差距,无需手动标注。项目开源了代码、网络架构和数据集,适用于自动驾驶环境感知研究。相比传统逆透视映射,该方法在处理3D物体和遮挡区域时表现更佳。

PFENet - 优化少样本分割的先验引导特征增强网络

PFENet少样本分割特征提取语义分割深度学习Github开源项目

PFENet作为少样本分割网络的代表作，利用先验引导特征增强技术优化分割效果。在PASCAL-5i和COCO等主流数据集上，PFENet展现出卓越性能。该开源项目包含完整实现代码、预训练模型和详细文档，为计算机视觉研究提供了宝贵资源。

Polygonization-by-Frame-Field-Learning - 航拍图像建筑物轮廓提取新方法

建筑物分割框架场学习多边形化语义分割计算机视觉Github开源项目

Frame Field Learning项目提出新方法从航拍图像提取建筑物多边形轮廓。该方法在图像分割神经网络中加入框架场输出,提高分割质量并为多边形化提供结构信息。项目在CVPR 2021发表,开源代码、模型和数据集,在航拍图像建筑物分割任务中达到最先进水平。

ESANet - 高效RGB-D语义分割网络用于室内场景分析

ESANet语义分割RGB-D室内场景分析实时处理Github开源项目

ESANet是一个高效的RGB-D语义分割网络,专为室内场景分析设计。该网络在NVIDIA Jetson AGX Xavier上实现实时语义分割,适用于移动机器人的实时场景分析系统。项目提供训练和评估代码,支持模型转换至ONNX和TensorRT,并可测量推理时间。ESANet在NYUv2、SUNRGB-D和Cityscapes等数据集上展现出优异性能。

awesome-time-series-segmentation-papers - 时间序列分割技术论文精选与代码实现

时间序列分割机器学习数据挖掘变点检测语义分割Github开源项目

该项目汇集了时间序列分割领域的经典算法和最新研究成果,涵盖单变量、多变量和张量时间序列的分割方法。内容包括无监督语义分割、变点检测等技术,并提供相关代码实现和数据集链接。这一资源对时间序列处理和模式识别研究具有重要参考价值。

segformer-b4-finetuned-ade-512-512 - 512x512分辨率下SegFormer的高效Transformer语义分割实现

图像处理ADE20kHuggingfaceSegFormerGithub开源项目语义分割Transformer模型

本项目展示了SegFormer模型如何应用在ADE20k数据集上，以512x512分辨率进行微调。该模型采用分层Transformer编码器与轻量级全MLP解码头的设计，并在ImageNet-1k预训练后用于语义分割。其适用于多个基准测试如ADE20K和Cityscapes，为视觉分割提供强大而灵活的工具。用户可以使用该模型进行图像的语义分割，或选择适合特定任务的微调版本。

mask2former-swin-large-coco-instance - 使用Swin骨干的高效图像分割Transformer模型

图像分割Github模型开源项目COCOMask2FormerHuggingface语义分割实例分割

Mask2Former在COCO数据集上的实例分割中表现出色，采用Swin骨干网，通过掩码预测和标签分类统一处理多种分割任务。相比MaskFormer，其改进的多尺度变形注意力机制提升了性能，并且不增加计算量的情况下优化了训练效率。此模型可以用于实例分割，提供多种微调版本供不同需求使用。

segformer_b3_clothes - SegFormer B3基于ATR数据集微调的服装和人体分割模型

语义分割Huggingface模型Github开源项目人体解析SegFormer图像分割衣物识别

SegFormer B3 Clothes是基于ATR数据集微调的服装和人体分割模型，可识别18个类别，包括背景、帽子、头发等。模型平均准确率80%，平均IoU 69%，在背景、头发和人脸等关键类别表现尤为出色。适用于多种服装分析和一般人体分割任务。提供简单API接口和训练代码，便于快速集成应用或进一步优化。

upernet-convnext-small - 高效语义分割框架融合ConvNeXt技术

模型语义分割计算机视觉GithubConvNeXtUperNet图像分割Huggingface开源项目

UperNet是一种结合ConvNeXt骨干网络的语义分割框架，融合了特征金字塔网络(FPN)和金字塔池化模块(PPM)。它能为每个像素生成语义标签，适用于场景理解和图像分割等计算机视觉任务。该模型提供多种预训练版本，可根据具体需求应用于不同场景。UperNet的设计旨在提高语义分割的准确性和效率，为研究人员和开发者提供了强大的图像分析工具。

oneformer_coco_swin_large - 单一模型实现多任务图像分割

模型语义分割实例分割GithubOneFormer图像分割多任务模型Huggingface开源项目

OneFormer COCO Swin Large是一款基于COCO数据集训练的多任务图像分割模型。它采用单一架构，通过一次训练就能在语义、实例和全景分割任务中表现出色。模型利用任务令牌技术实现训练引导和动态推理，提供了高效的图像分割方案。此外，它还提供了便捷的API接口，适合各类研究和开发需求。

mit-b5 - SegFormer层次化Transformer编码器预训练模型

模型语义分割图像分类Github预训练模型TransformerSegFormer开源项目Huggingface

SegFormer (b5-sized) encoder是一个在ImageNet-1k上预训练的语义分割模型。它采用层次化Transformer编码器结构，为下游任务微调提供基础。该模型在ADE20K和Cityscapes等语义分割基准测试中表现优异，同时也适用于图像分类等相关任务。用户可通过简洁的Python代码轻松调用此模型进行实验和应用开发。

oneformer_ade20k_swin_large - OneFormer 多任务通用图像分割模型

模型语义分割全景分割实例分割GithubOneFormer图像分割Huggingface开源项目

OneFormer是一个基于ADE20k数据集和Swin大型骨干网络训练的通用图像分割框架。它通过单一模型和单次训练，实现了语义、实例和全景分割多任务处理，性能超越现有专用模型。该模型采用任务令牌技术，实现了训练时的任务引导和推理时的任务动态适应。OneFormer为图像分割领域带来了新的解决方案，可应用于多种图像分割任务。

mask2former-swin-large-ade-semantic - Mask2Former：统一架构实现多类型图像分割

模型Github图像分割语义分割开源项目HuggingfaceTransformerMask2Former计算机视觉

Mask2Former-Swin-Large-ADE-Semantic是一款先进的图像分割模型，基于Swin backbone构建并在ADE20k数据集上训练。该模型采用统一架构处理实例、语义和全景分割任务，通过预测掩码和标签集实现多类型分割。其核心优势在于采用改进的多尺度可变形注意力Transformer和掩码注意力Transformer解码器，在性能和效率方面均优于前代MaskFormer模型。Mask2Former适用于广泛的图像分割场景，能够提供精确的分割结果。

segformer-b5-finetuned-ade-640-640 - SegFormer-b5模型用于ADE20k数据集的语义分割

语义分割Transformer图像处理Huggingface模型深度学习Github开源项目SegFormer

SegFormer-b5是一个针对ADE20k数据集640x640分辨率微调的语义分割模型。该模型采用层次化Transformer编码器和轻量级MLP解码头，在ADE20K等基准测试中表现优异。模型在ImageNet-1k预训练后，添加解码头并在目标数据集上微调，可应用于多种语义分割任务。

mask2former-swin-large-mapillary-vistas-panoptic - Mask2Former：集实例、语义和全景分割于一体的图像分割模型

语义分割计算机视觉Huggingface模型深度学习Mask2FormerGithub开源项目图像分割

Mask2Former是一个基于Swin主干网络的高级图像分割模型，在Mapillary Vistas数据集上训练用于全景分割。它通过预测掩码和标签集合，统一处理实例、语义和全景分割任务。该模型采用改进的Transformer架构和高效训练策略，性能和效率均优于先前的MaskFormer。Mask2Former为各类图像分割应用提供了强大支持，推动了计算机视觉技术的进步。

mit-b4 - 使用SegFormer预训练模型提升语义分割效率

Hugging FaceImageNetTransformer开源项目模型Huggingface语义分割GithubSegFormer

此项目提供SegFormer的b4-sized预训练模型，具有分层Transformer和轻量级MLP解码头，在ADE20K和Cityscapes等基准上展现出色性能。经过ImageNet-1k预训练的SegFormer可用于下游任务微调，满足多种应用需求。用户可在[模型库](https://huggingface.co/models?other=segformer)中根据任务需求选择合适版本，优化图像分割效果。

upernet-swin-small - UperNet结合Swin Transformer实现精确语义分割

视觉转换Github场景理解开源项目Swin TransformerUperNetHuggingface语义分割模型

UperNet结合Swin Transformer骨干网络，提供高效的语义分割解决方案，适用于多种视觉任务，实现每像素精确语义标签预测。

seggpt-vit-large - 基于上下文的单次图像分割解决方案

图像分割GithubSegGPT模型开源项目TransformerHuggingface生成模型语义分割

SegGPT项目采用了类似GPT的Transformer模型，它可以在提供输入图像和提示的情况下生成分割掩码，并在COCO-20和FSS-1000数据集上实现了优异的单次图像分割效果。此模型适合用于需要高精度和上下文整合的图像分割应用场景。

mit-b0 - 轻量级视觉Transformer用于语义分割

模型语义分割开源项目Huggingface图像处理SegFormerTransformerGithub深度学习

mit-b0是SegFormer系列中的轻量级模型，采用分层Transformer编码器架构，在ImageNet-1k数据集上预训练。这个模型专为语义分割任务设计，结合了Transformer的特征提取能力和轻量级MLP解码头。mit-b0在ADE20K等基准测试中表现出色，为研究人员提供了一个可靠的预训练基础，可在特定数据集上进行进一步微调和优化。

oneformer_ade20k_swin_tiny - 通过单一模型实现多任务图像分割的统一框架

图像分割实例分割模型深度学习OneFormerGithub语义分割Huggingface开源项目

OneFormer通过单一架构实现语义、实例和全景分割的统一处理。基于ADE20k数据集训练并采用Swin主干网络，这个紧凑型模型仅需一次训练即可完成多种图像分割任务。其独特的任务令牌机制实现了训练引导和推理动态化，为图像分割领域提供了高效的解决方案。

maskformer-swin-large-ade - MaskFormer模型提升语义分割效率与精确度的创新方案

实例分割开源项目模型Huggingfacepanoptic分割语义分割ADE20kMaskFormerGithub

MaskFormer通过ADE20k数据集训练，利用Swin结构提升语义、实例和全景分割性能。该模型适用于多种分割任务，采用统一的掩码及标签预测方式处理三类分割，促进图像细分任务的研究和应用，如建筑物和场景的精确分割。项目由Hugging Face团队支持，可在模型中心找到其他版本进行适用性调优。

segformer-b5-finetuned-cityscapes-1024-1024 - SegFormer-b5模型在CityScapes数据集上微调的语义分割应用

图像处理模型SegFormer深度学习Github语义分割Huggingface开源项目Transformer

SegFormer-b5是一个在CityScapes数据集上微调的语义分割模型。它结合层次化Transformer编码器和轻量级MLP解码头，在1024x1024分辨率下展现优秀性能。该模型经ImageNet-1k预训练后，通过添加解码头并在特定数据集微调，可应用于自动驾驶场景理解等多种语义分割任务。

mit-b1 - SegFormer分层Transformer编码器用于语义分割

机器学习图像分割GithubSegFormerHuggingface语义分割开源项目模型Transformer

mit-b1是SegFormer模型的预训练编码器，采用分层Transformer结构，在ImageNet-1k数据集上完成预训练。该模型主要用于语义分割任务的微调，可通过添加轻量级全MLP解码头实现。mit-b1在ADE20K和Cityscapes等基准测试中表现优异，为语义分割提供了高效的特征提取能力，适用于多种下游任务。

mit-b2 - 高效语义分割的简单Transformer设计

机器学习Github开源项目SegFormer图像分类TransformerHuggingface语义分割模型

SegFormer b2是一个在ImageNet-1k上预训练的编码器模型，采用分层Transformer结构。该模型专为语义分割任务设计，结合了简单高效的架构和出色的性能。虽然此版本仅包含预训练的编码器部分，但它为图像分类和语义分割的微调提供了坚实基础。SegFormer的创新设计使其在多个计算机视觉任务中展现出强大潜力。

mask2former-swin-large-mapillary-vistas-semantic - Mask2Former模型整合多尺度变形和掩码注意力实现高效图像分割

深度学习Huggingface图像分割开源项目模型语义分割Github计算机视觉Mask2Former

Mask2Former是基于Swin骨干网络的大型模型，针对Mapillary Vistas数据集进行语义分割训练。该模型采用统一方法处理实例、语义和全景分割任务，通过预测掩码集合及对应标签实现。结合多尺度变形注意力Transformer和掩码注意力机制，Mask2Former在性能和效率上均优于先前的SOTA模型MaskFormer。模型支持批量处理，输出类别和掩码查询逻辑，便于后续处理和结果可视化。

upernet-swin-large - Swin Transformer 与 UperNet 结合的语义分割方法

特征金字塔网络Huggingface语义分割Swin Transformer视觉GithubUperNet开源项目模型

UperNet 利用 Swin Transformer 大型网络进行语义分割，框架包含组件如主干网络、特征金字塔网络及金字塔池模块。可与各种视觉主干结合使用，对每个像素预测语义标签，适合语义分割任务，并可在 Hugging Face 平台找到特定任务的优化版本。通过 Swin Transformer 与 UperNet 的结合，用户可在场景理解中实现精确的语义分割。

maskformer-swin-base-ade - 语义分割的新方法——MaskFormer的应用

深度学习Huggingface图像分割开源项目模型语义分割Hugging FaceGithubMaskFormer

MaskFormer采用Swin骨干网络与ADE20k数据集，在语义分割中表现出色。该模型通过预测掩模和标签统一地解决实例、语义及全景分割任务，可通过Hugging Face平台上的预训练模型来深入研究其应用。

oneformer_ade20k_dinat_large - OneFormer单一模型在多任务图像分割中实现卓越表现

语义分割实例分割OneFormer图像分割模型Github开源项目ADE20kHuggingface

OneFormer模型借助单一架构和模块在ADE20k数据集上进行训练，适用于语义、实例和全景分割。通过使用任务令牌，该模型能够动态调整以满足不同任务要求，不仅显著优化了分割效果，还具备替代专门化模型的潜力。

segformer-b3-finetuned-ade-512-512 - 改进版SegFormer模型，提升语义分割精度与效率

图像分割Github模型ADE20k开源项目HuggingfaceSegFormer语义分割Transformers

SegFormer在ADE20k数据集上微调后，在高分辨率下展现出卓越的语义分割能力。它结合了层次Transformer编码器和轻便MLP解码器，通过ImageNet-1k预训练和后续微调，适合多样化的图像分割应用，提供多种版本以匹配不同需求。

detr-resnet-50-panoptic - DETR模型：结合ResNet-50的端到端目标检测与全景分割

Transformer计算机视觉开源项目目标检测模型DETRHuggingface语义分割Github

DETR-ResNet-50是一种创新的目标检测模型，融合了Transformer和卷积神经网络技术。该模型在COCO数据集上训练，支持端到端的目标检测和全景分割。通过100个对象查询机制，DETR实现了高效准确的目标识别。在COCO 2017验证集上，模型展现出优秀性能：框AP为38.8，分割AP为31.1，全景质量(PQ)达43.4。这一模型为计算机视觉任务提供了新的解决方案。

相关文章

Article Cover

PyTorch U-Net:高质量图像语义分割的强大工具

Article Cover

OpenScene: 开放词汇的3D场景理解新方法

Article Cover

Open3D-ML: 3D机器学习的强大扩展

Article Cover

Open3D-PointNet2-Semantic3D: 基于Open3D和PointNet++的3D语义分割

Article Cover

Urban_seg: 基于遥感图像的高效语义分割项目

Article Cover

PytorchAutoDrive: 自动驾驶感知的开源框架

Article Cover

bpycv: 为Blender提供的计算机视觉和深度学习工具

Article Cover

卫星图像中的船舶数据集综述

Article Cover

LabelMe: 强大的图像多边形标注工具

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号