#语义分割

lidar-bonnetal - LiDAR点云语义分割开源框架
LiDAR-Bonnetal语义分割点云深度学习SemanticKITTIGithub开源项目
LiDAR-Bonnetal是一个开源的LiDAR点云语义分割框架,使用距离图像作为中间表示。该项目提供训练管道和多个基于SemanticKITTI数据集的预训练模型。框架支持多种网络架构,如SqueezeNet和DarkNet变体,并提供了这些模型在SemanticKITTI数据集上的预训练权重和预测结果。虽然项目已归档,但其代码和模型仍可用于研究和学习LiDAR数据处理技术。研究者可以利用这些资源进行点云语义分割的相关研究。
Cam2BEV - 深度学习实现多视角车载图像到语义分割鸟瞰图转换
Cam2BEV语义分割鸟瞰图深度学习自动驾驶Github开源项目
该项目提出一种深度学习方法,将多个车载摄像头图像转换为语义分割鸟瞰图(BEV)。采用合成数据集训练,可良好泛化到真实场景。方法使用语义分割图像作为输入,缩小了仿真与真实数据的差距,无需手动标注。项目开源了代码、网络架构和数据集,适用于自动驾驶环境感知研究。相比传统逆透视映射,该方法在处理3D物体和遮挡区域时表现更佳。
PFENet - 优化少样本分割的先验引导特征增强网络
PFENet少样本分割特征提取语义分割深度学习Github开源项目
PFENet作为少样本分割网络的代表作,利用先验引导特征增强技术优化分割效果。在PASCAL-5i和COCO等主流数据集上,PFENet展现出卓越性能。该开源项目包含完整实现代码、预训练模型和详细文档,为计算机视觉研究提供了宝贵资源。
Polygonization-by-Frame-Field-Learning - 航拍图像建筑物轮廓提取新方法
建筑物分割框架场学习多边形化语义分割计算机视觉Github开源项目
Frame Field Learning项目提出新方法从航拍图像提取建筑物多边形轮廓。该方法在图像分割神经网络中加入框架场输出,提高分割质量并为多边形化提供结构信息。项目在CVPR 2021发表,开源代码、模型和数据集,在航拍图像建筑物分割任务中达到最先进水平。
ESANet - 高效RGB-D语义分割网络用于室内场景分析
ESANet语义分割RGB-D室内场景分析实时处理Github开源项目
ESANet是一个高效的RGB-D语义分割网络,专为室内场景分析设计。该网络在NVIDIA Jetson AGX Xavier上实现实时语义分割,适用于移动机器人的实时场景分析系统。项目提供训练和评估代码,支持模型转换至ONNX和TensorRT,并可测量推理时间。ESANet在NYUv2、SUNRGB-D和Cityscapes等数据集上展现出优异性能。
awesome-time-series-segmentation-papers - 时间序列分割技术论文精选与代码实现
时间序列分割机器学习数据挖掘变点检测语义分割Github开源项目
该项目汇集了时间序列分割领域的经典算法和最新研究成果,涵盖单变量、多变量和张量时间序列的分割方法。内容包括无监督语义分割、变点检测等技术,并提供相关代码实现和数据集链接。这一资源对时间序列处理和模式识别研究具有重要参考价值。
segformer-b4-finetuned-ade-512-512 - 512x512分辨率下SegFormer的高效Transformer语义分割实现
图像处理ADE20kHuggingfaceSegFormerGithub开源项目语义分割Transformer模型
本项目展示了SegFormer模型如何应用在ADE20k数据集上,以512x512分辨率进行微调。该模型采用分层Transformer编码器与轻量级全MLP解码头的设计,并在ImageNet-1k预训练后用于语义分割。其适用于多个基准测试如ADE20K和Cityscapes,为视觉分割提供强大而灵活的工具。用户可以使用该模型进行图像的语义分割,或选择适合特定任务的微调版本。
mask2former-swin-large-coco-instance - 使用Swin骨干的高效图像分割Transformer模型
图像分割Github模型开源项目COCOMask2FormerHuggingface语义分割实例分割
Mask2Former在COCO数据集上的实例分割中表现出色,采用Swin骨干网,通过掩码预测和标签分类统一处理多种分割任务。相比MaskFormer,其改进的多尺度变形注意力机制提升了性能,并且不增加计算量的情况下优化了训练效率。此模型可以用于实例分割,提供多种微调版本供不同需求使用。
segformer_b3_clothes - SegFormer B3基于ATR数据集微调的服装和人体分割模型
语义分割Huggingface模型Github开源项目人体解析SegFormer图像分割衣物识别
SegFormer B3 Clothes是基于ATR数据集微调的服装和人体分割模型,可识别18个类别,包括背景、帽子、头发等。模型平均准确率80%,平均IoU 69%,在背景、头发和人脸等关键类别表现尤为出色。适用于多种服装分析和一般人体分割任务。提供简单API接口和训练代码,便于快速集成应用或进一步优化。
upernet-convnext-small - 高效语义分割框架融合ConvNeXt技术
模型语义分割计算机视觉GithubConvNeXtUperNet图像分割Huggingface开源项目
UperNet是一种结合ConvNeXt骨干网络的语义分割框架,融合了特征金字塔网络(FPN)和金字塔池化模块(PPM)。它能为每个像素生成语义标签,适用于场景理解和图像分割等计算机视觉任务。该模型提供多种预训练版本,可根据具体需求应用于不同场景。UperNet的设计旨在提高语义分割的准确性和效率,为研究人员和开发者提供了强大的图像分析工具。
oneformer_coco_swin_large - 单一模型实现多任务图像分割
模型语义分割实例分割GithubOneFormer图像分割多任务模型Huggingface开源项目
OneFormer COCO Swin Large是一款基于COCO数据集训练的多任务图像分割模型。它采用单一架构,通过一次训练就能在语义、实例和全景分割任务中表现出色。模型利用任务令牌技术实现训练引导和动态推理,提供了高效的图像分割方案。此外,它还提供了便捷的API接口,适合各类研究和开发需求。
mit-b5 - SegFormer层次化Transformer编码器预训练模型
模型语义分割图像分类Github预训练模型TransformerSegFormer开源项目Huggingface
SegFormer (b5-sized) encoder是一个在ImageNet-1k上预训练的语义分割模型。它采用层次化Transformer编码器结构,为下游任务微调提供基础。该模型在ADE20K和Cityscapes等语义分割基准测试中表现优异,同时也适用于图像分类等相关任务。用户可通过简洁的Python代码轻松调用此模型进行实验和应用开发。
oneformer_ade20k_swin_large - OneFormer 多任务通用图像分割模型
模型语义分割全景分割实例分割GithubOneFormer图像分割Huggingface开源项目
OneFormer是一个基于ADE20k数据集和Swin大型骨干网络训练的通用图像分割框架。它通过单一模型和单次训练,实现了语义、实例和全景分割多任务处理,性能超越现有专用模型。该模型采用任务令牌技术,实现了训练时的任务引导和推理时的任务动态适应。OneFormer为图像分割领域带来了新的解决方案,可应用于多种图像分割任务。
mask2former-swin-large-ade-semantic - Mask2Former:统一架构实现多类型图像分割
模型Github图像分割语义分割开源项目HuggingfaceTransformerMask2Former计算机视觉
Mask2Former-Swin-Large-ADE-Semantic是一款先进的图像分割模型,基于Swin backbone构建并在ADE20k数据集上训练。该模型采用统一架构处理实例、语义和全景分割任务,通过预测掩码和标签集实现多类型分割。其核心优势在于采用改进的多尺度可变形注意力Transformer和掩码注意力Transformer解码器,在性能和效率方面均优于前代MaskFormer模型。Mask2Former适用于广泛的图像分割场景,能够提供精确的分割结果。
segformer-b5-finetuned-ade-640-640 - SegFormer-b5模型用于ADE20k数据集的语义分割
语义分割Transformer图像处理Huggingface模型深度学习Github开源项目SegFormer
SegFormer-b5是一个针对ADE20k数据集640x640分辨率微调的语义分割模型。该模型采用层次化Transformer编码器和轻量级MLP解码头,在ADE20K等基准测试中表现优异。模型在ImageNet-1k预训练后,添加解码头并在目标数据集上微调,可应用于多种语义分割任务。
mask2former-swin-large-mapillary-vistas-panoptic - Mask2Former:集实例、语义和全景分割于一体的图像分割模型
语义分割计算机视觉Huggingface模型深度学习Mask2FormerGithub开源项目图像分割
Mask2Former是一个基于Swin主干网络的高级图像分割模型,在Mapillary Vistas数据集上训练用于全景分割。它通过预测掩码和标签集合,统一处理实例、语义和全景分割任务。该模型采用改进的Transformer架构和高效训练策略,性能和效率均优于先前的MaskFormer。Mask2Former为各类图像分割应用提供了强大支持,推动了计算机视觉技术的进步。
mit-b4 - 使用SegFormer预训练模型提升语义分割效率
Hugging FaceImageNetTransformer开源项目模型Huggingface语义分割GithubSegFormer
此项目提供SegFormer的b4-sized预训练模型,具有分层Transformer和轻量级MLP解码头,在ADE20K和Cityscapes等基准上展现出色性能。经过ImageNet-1k预训练的SegFormer可用于下游任务微调,满足多种应用需求。用户可在[模型库](https://huggingface.co/models?other=segformer)中根据任务需求选择合适版本,优化图像分割效果。
upernet-swin-small - UperNet结合Swin Transformer实现精确语义分割
视觉转换Github场景理解开源项目Swin TransformerUperNetHuggingface语义分割模型
UperNet结合Swin Transformer骨干网络,提供高效的语义分割解决方案,适用于多种视觉任务,实现每像素精确语义标签预测。
seggpt-vit-large - 基于上下文的单次图像分割解决方案
图像分割GithubSegGPT模型开源项目TransformerHuggingface生成模型语义分割
SegGPT项目采用了类似GPT的Transformer模型,它可以在提供输入图像和提示的情况下生成分割掩码,并在COCO-20和FSS-1000数据集上实现了优异的单次图像分割效果。此模型适合用于需要高精度和上下文整合的图像分割应用场景。
mit-b0 - 轻量级视觉Transformer用于语义分割
模型语义分割开源项目Huggingface图像处理SegFormerTransformerGithub深度学习
mit-b0是SegFormer系列中的轻量级模型,采用分层Transformer编码器架构,在ImageNet-1k数据集上预训练。这个模型专为语义分割任务设计,结合了Transformer的特征提取能力和轻量级MLP解码头。mit-b0在ADE20K等基准测试中表现出色,为研究人员提供了一个可靠的预训练基础,可在特定数据集上进行进一步微调和优化。
oneformer_ade20k_swin_tiny - 通过单一模型实现多任务图像分割的统一框架
图像分割实例分割模型深度学习OneFormerGithub语义分割Huggingface开源项目
OneFormer通过单一架构实现语义、实例和全景分割的统一处理。基于ADE20k数据集训练并采用Swin主干网络,这个紧凑型模型仅需一次训练即可完成多种图像分割任务。其独特的任务令牌机制实现了训练引导和推理动态化,为图像分割领域提供了高效的解决方案。
maskformer-swin-large-ade - MaskFormer模型提升语义分割效率与精确度的创新方案
实例分割开源项目模型Huggingfacepanoptic分割语义分割ADE20kMaskFormerGithub
MaskFormer通过ADE20k数据集训练,利用Swin结构提升语义、实例和全景分割性能。该模型适用于多种分割任务,采用统一的掩码及标签预测方式处理三类分割,促进图像细分任务的研究和应用,如建筑物和场景的精确分割。项目由Hugging Face团队支持,可在模型中心找到其他版本进行适用性调优。
segformer-b5-finetuned-cityscapes-1024-1024 - SegFormer-b5模型在CityScapes数据集上微调的语义分割应用
图像处理模型SegFormer深度学习Github语义分割Huggingface开源项目Transformer
SegFormer-b5是一个在CityScapes数据集上微调的语义分割模型。它结合层次化Transformer编码器和轻量级MLP解码头,在1024x1024分辨率下展现优秀性能。该模型经ImageNet-1k预训练后,通过添加解码头并在特定数据集微调,可应用于自动驾驶场景理解等多种语义分割任务。
mit-b1 - SegFormer分层Transformer编码器用于语义分割
机器学习图像分割GithubSegFormerHuggingface语义分割开源项目模型Transformer
mit-b1是SegFormer模型的预训练编码器,采用分层Transformer结构,在ImageNet-1k数据集上完成预训练。该模型主要用于语义分割任务的微调,可通过添加轻量级全MLP解码头实现。mit-b1在ADE20K和Cityscapes等基准测试中表现优异,为语义分割提供了高效的特征提取能力,适用于多种下游任务。
mit-b2 - 高效语义分割的简单Transformer设计
机器学习Github开源项目SegFormer图像分类TransformerHuggingface语义分割模型
SegFormer b2是一个在ImageNet-1k上预训练的编码器模型,采用分层Transformer结构。该模型专为语义分割任务设计,结合了简单高效的架构和出色的性能。虽然此版本仅包含预训练的编码器部分,但它为图像分类和语义分割的微调提供了坚实基础。SegFormer的创新设计使其在多个计算机视觉任务中展现出强大潜力。
mask2former-swin-large-mapillary-vistas-semantic - Mask2Former模型整合多尺度变形和掩码注意力实现高效图像分割
深度学习Huggingface图像分割开源项目模型语义分割Github计算机视觉Mask2Former
Mask2Former是基于Swin骨干网络的大型模型,针对Mapillary Vistas数据集进行语义分割训练。该模型采用统一方法处理实例、语义和全景分割任务,通过预测掩码集合及对应标签实现。结合多尺度变形注意力Transformer和掩码注意力机制,Mask2Former在性能和效率上均优于先前的SOTA模型MaskFormer。模型支持批量处理,输出类别和掩码查询逻辑,便于后续处理和结果可视化。
upernet-swin-large - Swin Transformer 与 UperNet 结合的语义分割方法
特征金字塔网络Huggingface语义分割Swin Transformer视觉GithubUperNet开源项目模型
UperNet 利用 Swin Transformer 大型网络进行语义分割,框架包含组件如主干网络、特征金字塔网络及金字塔池模块。可与各种视觉主干结合使用,对每个像素预测语义标签,适合语义分割任务,并可在 Hugging Face 平台找到特定任务的优化版本。通过 Swin Transformer 与 UperNet 的结合,用户可在场景理解中实现精确的语义分割。
maskformer-swin-base-ade - 语义分割的新方法——MaskFormer的应用
深度学习Huggingface图像分割开源项目模型语义分割Hugging FaceGithubMaskFormer
MaskFormer采用Swin骨干网络与ADE20k数据集,在语义分割中表现出色。该模型通过预测掩模和标签统一地解决实例、语义及全景分割任务,可通过Hugging Face平台上的预训练模型来深入研究其应用。
oneformer_ade20k_dinat_large - OneFormer单一模型在多任务图像分割中实现卓越表现
语义分割实例分割OneFormer图像分割模型Github开源项目ADE20kHuggingface
OneFormer模型借助单一架构和模块在ADE20k数据集上进行训练,适用于语义、实例和全景分割。通过使用任务令牌,该模型能够动态调整以满足不同任务要求,不仅显著优化了分割效果,还具备替代专门化模型的潜力。
segformer-b3-finetuned-ade-512-512 - 改进版SegFormer模型,提升语义分割精度与效率
图像分割Github模型ADE20k开源项目HuggingfaceSegFormer语义分割Transformers
SegFormer在ADE20k数据集上微调后,在高分辨率下展现出卓越的语义分割能力。它结合了层次Transformer编码器和轻便MLP解码器,通过ImageNet-1k预训练和后续微调,适合多样化的图像分割应用,提供多种版本以匹配不同需求。
detr-resnet-50-panoptic - DETR模型:结合ResNet-50的端到端目标检测与全景分割
Transformer计算机视觉开源项目目标检测模型DETRHuggingface语义分割Github
DETR-ResNet-50是一种创新的目标检测模型,融合了Transformer和卷积神经网络技术。该模型在COCO数据集上训练,支持端到端的目标检测和全景分割。通过100个对象查询机制,DETR实现了高效准确的目标识别。在COCO 2017验证集上,模型展现出优秀性能:框AP为38.8,分割AP为31.1,全景质量(PQ)达43.4。这一模型为计算机视觉任务提供了新的解决方案。