sam2-hiera-small

下一代图像和视频可提示视觉分割技术

视觉分割开源项目 FAIR 模型 Huggingface SAM 2 图像分割视频分割 Github

SAM 2是FAIR推出的一款模型，专注于实现图像和视频的可提示视觉分割。官方代码库支持图像和视频预测任务，允许利用SAM2ImagePredictor生成图像遮罩，并使用SAM2VideoPredictor实现视频中遮罩的传播和处理。该模型在学术研究和工业应用中具有广泛功能。如需深入了解，可查阅相关论文和资源。

Github

Huggingface

介绍相关项目

Segment-Anything-CLIP - 整合Segment-Anything与CLIP的图像分析框架

CLIPGithubsegment-anything人工智能图像分割开源项目计算机视觉

项目通过结合Segment-Anything的分割能力和CLIP的识别功能，构建了一个高效的图像分析框架。系统可自动生成多个分割掩码，并对每个掩码区域进行分类。这种创新方法不仅提高了图像分析的精度，还为计算机视觉领域的研究和应用开辟了新途径。

mask2former-swin-large-coco-panoptic - 基于Transformer架构的高效图像分割模型

COCO数据集GithubHuggingfaceMask2Former图像分割开源项目模型深度学习视觉模型

Mask2Former-Swin-Large是一个基于COCO数据集训练的图像分割模型，通过多尺度可变形注意力和掩码注意力机制，实现了实例、语义和全景分割的统一处理。相比MaskFormer具有更高的性能和计算效率

mask2former-swin-tiny-coco-instance - Mask2Former模型：统一处理实例、语义和全景图像分割

GithubHuggingfaceMask2Former图像分割实例分割开源项目模型深度学习计算机视觉

Mask2Former是一个先进的图像分割模型，基于Swin骨干网络在COCO数据集上训练。它采用统一的方法处理实例、语义和全景分割任务，通过预测掩码和标签来完成分割。该模型引入多尺度可变形注意力Transformer和掩码注意力Transformer解码器，在性能和效率上超越了先前的MaskFormer模型。Mask2Former提供了简单的使用方法和代码示例，方便研究人员和开发者在图像分割领域进行应用和研究。

efficientvit - EfficientViT多尺度线性注意力用于高分辨率密集预测

EfficientViTGithub图像分割开源项目模型优化深度学习计算机视觉

EfficientViT是一种新型ViT模型，专注于高效处理高分辨率密集预测视觉任务。其核心是轻量级多尺度线性注意力模块，通过硬件友好操作实现全局感受野和多尺度学习。该项目提供图像分类、语义分割和SAM等应用的预训练模型，在性能和效率间达到平衡，适合GPU部署和TensorRT优化。

mask2former-swin-large-mapillary-vistas-semantic - Mask2Former模型整合多尺度变形和掩码注意力实现高效图像分割

GithubHuggingfaceMask2Former图像分割开源项目模型深度学习计算机视觉语义分割

Mask2Former是基于Swin骨干网络的大型模型，针对Mapillary Vistas数据集进行语义分割训练。该模型采用统一方法处理实例、语义和全景分割任务，通过预测掩码集合及对应标签实现。结合多尺度变形注意力Transformer和掩码注意力机制，Mask2Former在性能和效率上均优于先前的SOTA模型MaskFormer。模型支持批量处理，输出类别和掩码查询逻辑，便于后续处理和结果可视化。

mask2former-swin-large-mapillary-vistas-panoptic - Mask2Former：集实例、语义和全景分割于一体的图像分割模型

GithubHuggingfaceMask2Former图像分割开源项目模型深度学习计算机视觉语义分割

Mask2Former是一个基于Swin主干网络的高级图像分割模型，在Mapillary Vistas数据集上训练用于全景分割。它通过预测掩码和标签集合，统一处理实例、语义和全景分割任务。该模型采用改进的Transformer架构和高效训练策略，性能和效率均优于先前的MaskFormer。Mask2Former为各类图像分割应用提供了强大支持，推动了计算机视觉技术的进步。

seggpt-vit-large - 基于上下文的单次图像分割解决方案

GithubHuggingfaceSegGPTTransformer图像分割开源项目模型生成模型语义分割

SegGPT项目采用了类似GPT的Transformer模型，它可以在提供输入图像和提示的情况下生成分割掩码，并在COCO-20和FSS-1000数据集上实现了优异的单次图像分割效果。此模型适合用于需要高精度和上下文整合的图像分割应用场景。

sammo - 大型语言模型提示词运行和优化库

GithubSAMMO大语言模型并行处理开源项目提示工程数据标注

SAMMO是一个用于运行和优化大型语言模型提示词的开源库。该项目支持数据标注、提示词设计、指令优化、提示词压缩和大规模执行等功能。SAMMO提供并行化和速率限制能力，可进行大规模查询而不会过载API。这个库适合需要高效处理和优化LLM提示词的多种应用场景。

UniRef - 跨空间时间的统一视觉对象分割模型

GithubUniRef++参考对象分割开源项目深度学习目标分割视频对象分割

UniRef++是一个统一的视觉模型，可同时处理指代图像分割、少样本分割、指代视频对象分割和视频对象分割四种任务。其核心UniFusion模块能高效注入多种参考信息，不仅性能优异，还可作为SAM等基础模型的插件组件使用。该模型在多个benchmark上展现出色表现，体现了其在对象分割领域的通用性和扩展性。

segment-lidar - 基于SAM的航空LiDAR数据无监督分割Python工具包

GithubLiDARSAM分割开源项目点云自动化

segment-lidar是一个用于航空LiDAR数据无监督实例分割的Python工具包。它集成了Meta AI的Segment-Anything Model (SAM)和segment-geospatial包，实现3D点云数据的自动化分割。工具包具备地面滤波、自定义相机视图和交互式可视化等功能，安装简便，文档完善。适合处理大规模LiDAR数据的研究和开发需求。

项目侧边栏1

项目侧边栏2

推荐项目

Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计是一个多功能的在线设计和创意平台，提供广泛的设计工具和资源，以满足不同用户的需求。从专业的图形设计师到普通用户，无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑，稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合，帮助用户轻松实现创意设计。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号