mask2former-swin-tiny-coco-instance

Mask2Former模型：统一处理实例、语义和全景图像分割

模型 Github 图像分割实例分割开源项目 Huggingface Mask2Former 计算机视觉深度学习

Mask2Former是一个先进的图像分割模型，基于Swin骨干网络在COCO数据集上训练。它采用统一的方法处理实例、语义和全景分割任务，通过预测掩码和标签来完成分割。该模型引入多尺度可变形注意力Transformer和掩码注意力Transformer解码器，在性能和效率上超越了先前的MaskFormer模型。Mask2Former提供了简单的使用方法和代码示例，方便研究人员和开发者在图像分割领域进行应用和研究。

Github

Huggingface

介绍相关项目

segformer-b3-fashion - 高效精准的时尚服饰语义分割模型

GithubHuggingfaceSegFormer图像分割开源项目服装识别模型深度学习计算机视觉

SegFormer-b3-fashion是一个基于SegFormer架构的语义分割模型，针对时尚服饰领域进行了优化。该模型可识别和分割图像中46种不同的服饰元素，涵盖衣物、配饰和细节特征。它采用transformer技术，在保持精确度的同时提供高效设计，适用于时尚分析和虚拟试衣等应用场景。

LLFormer - 高效处理超高清低光照图像的Transformer模型

AAAIGithubTransformer低光照图像增强开源项目超高清

LLFormer是一种新型Transformer模型,专门用于增强超高清低光照图像。通过创新的轴向多头自注意力和跨层注意力融合机制,LLFormer能高效处理4K和8K分辨率图像。在UHDLOL基准测试中,该模型性能显著优于现有方法。LLFormer不仅提升了图像质量,还能改善低光照条件下人脸检测等下游任务的效果。

swinv2-tiny-patch4-window8-256 - 基于分层特征图的轻量级视觉Transformer模型

GithubHuggingfaceImageNetSwin Transformer v2图像分类开源项目模型深度学习计算机视觉

Swin Transformer V2是一个在ImageNet-1k数据集上预训练的视觉模型，采用分层特征图结构和局部窗口注意力机制，实现线性计算复杂度。模型整合了残差后归一化和余弦注意力等技术，在保持256x256分辨率输入的同时，提供了稳定的图像分类和特征提取能力。

MDT - MDTv2图像合成模型：更快收敛和卓越性能

GithubMasked Diffusion Transformer人工智能图像合成开源项目深度学习计算机视觉

MDTv2是一种先进的深度学习图像合成模型，在ImageNet数据集上实现了1.58的FID分数，创造新的业界标准。该模型采用掩码潜在建模技术，提高了图像语义理解能力，学习速度比先前模型快10倍以上。MDTv2在图像生成质量和训练效率方面都有显著提升，为计算机视觉和人工智能领域带来了新的可能性。

segment-anything-2 - 新一代图像和视频分割基础模型

AI模型GithubSAM 2图像分割开源项目视频分割计算机视觉

SAM 2是Meta AI研发的图像和视频分割基础模型,扩展了SAM的功能。它采用transformer架构和流式内存,实现实时视频处理。通过模型循环数据引擎,研究团队构建了大规模视频分割数据集SA-V。SAM 2在多种视觉任务中展现出卓越性能,为计算机视觉领域带来新的可能。

semantic-segmentation - 提供丰富数据集和易于定制的语义分割模型

GithubPyTorchSOTASemantic Segmentation开源项目数据集模型库

该项目提供易于使用和定制的SOTA语义分割模型，支持多种任务和数据集。适合高精度和定制应用场景，涵盖场景解析、人类解析、人脸解析等任务。特点包括多种主干网络和分割模型，支持PyTorch、ONNX、TFLite等框架的推理和导出。即将迎来重大更新，包括新的训练流程、预训练模型、教程和分布式训练支持。用户可通过详细文档和示例轻松使用并配置定制数据集，实现高效的语义分割。

actionformer_release - 基于Transformer的高精度动作时刻定位模型

ActionFormerActivityNetGithubTHUMOS14Transformer开源项目时序动作定位

actionformer_release是一个基于Transformer的动作定位模型，能够检测动作实例的起止点并识别动作类别。在THUMOS14数据集上，该模型取得了71.0%的mAP，超越之前的最佳模型14.1个百分点，并首次突破60%的mAP。此外，该模型在ActivityNet 1.3和EPIC-Kitchens 100数据集上也取得了优异成绩。该项目设计简洁，通过局部自注意力机制对未剪辑视频进行时间上下文建模，并可一次性精确定位动作时刻。代码和预训练模型已开源，可供下载和试用。

RestoreFormer - 盲脸修复的跨域注意力模型

GithubRestoreFormer++人脸修复开源项目深度学习盲恢复高质量

RestoreFormer利用多头交叉注意力层实现高质量盲脸修复，其特点是从高质量字典中提取关键-值对用于面部重建。2023年9月项目添加了在线演示和更用户友好的推理方法，2023年1月新增了测试数据集。源代码和资源在GitHub提供，并包含详细的数据集准备和模型训练指南，支持多种评估指标。

sam2-hiera-small - 下一代图像和视频可提示视觉分割技术

FAIRGithubHuggingfaceSAM 2图像分割开源项目模型视觉分割视频分割

SAM 2是FAIR推出的一款模型，专注于实现图像和视频的可提示视觉分割。官方代码库支持图像和视频预测任务，允许利用SAM2ImagePredictor生成图像遮罩，并使用SAM2VideoPredictor实现视频中遮罩的传播和处理。该模型在学术研究和工业应用中具有广泛功能。如需深入了解，可查阅相关论文和资源。

upernet-swin-small - UperNet结合Swin Transformer实现精确语义分割

GithubHuggingfaceSwin TransformerUperNet场景理解开源项目模型视觉转换语义分割

UperNet结合Swin Transformer骨干网络，提供高效的语义分割解决方案，适用于多种视觉任务，实现每像素精确语义标签预测。

项目侧边栏1

项目侧边栏2

推荐项目

Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计是一个多功能的在线设计和创意平台，提供广泛的设计工具和资源，以满足不同用户的需求。从专业的图形设计师到普通用户，无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑，稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合，帮助用户轻松实现创意设计。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号