QueryInst

简洁高效的实例分割策略

QueryInst 实例分割 mmdetection COCO数据集目标检测 Github 开源项目

QueryInst是一种由动态掩码头并行监督驱动的查询实例分割方法，在准确性和速度上具有显著优势。该项目涵盖对象检测、实例分割和视频实例分割等多种实例级别识别任务，并提供详细的功能介绍和模型训练指导。目前本项目仍在积极开发中，计划扩展至更多实例级别识别任务。

PFENet - 优化少样本分割的先验引导特征增强网络

GithubPFENet少样本分割开源项目深度学习特征提取语义分割

PFENet作为少样本分割网络的代表作，利用先验引导特征增强技术优化分割效果。在PASCAL-5i和COCO等主流数据集上，PFENet展现出卓越性能。该开源项目包含完整实现代码、预训练模型和详细文档，为计算机视觉研究提供了宝贵资源。

lang-segment-anything - 基于文本提示的开源图像分割工具

GithubLanguage Segment-Anything图像分割对象检测开源项目深度学习计算机视觉

Lang-segment-anything是一个开源项目，结合实例分割和文本提示功能，用于生成图像中特定对象的掩码。该工具基于Meta的segment-anything模型和GroundingDINO检测模型，实现了零样本文本到边界框的对象检测。项目支持自定义文本提示进行精确对象分割，并可在Lightning AI应用平台上部署。这一工具为图像分析和对象识别提供了新的解决方案。

efficientdet - EfficientDet目标检测模型的PyTorch实现

COCO数据集EfficientDetGithub开源项目深度学习目标检测计算机视觉

本项目提供了EfficientDet目标检测模型的PyTorch实现。支持COCO数据集的训练、评估和测试，在COCO val2017上达到0.314 mAP。包含预训练权重、视频测试功能和使用说明。适合研究人员和开发者参考使用。

Mask3D - 改进3D语义实例分割方法，兼容多种数据集

3D实例分割GithubICRA 2023Mask3DPyTorchScanNet开源项目

Mask3D是一个提升3D语义实例分割的开源项目，支持ScanNet、ScanNet200、S3DIS和STPLS3D数据集。项目集成了PyTorch、PyTorch Lightning和Hydra工具，提供高效的架构和训练流程，包括数据预处理、模型训练与测试。此外，Mask3D在多个挑战中表现优异，包括在ECCV 2022的Urban3D挑战中获得第二名。

DINO - 降噪锚框实现端到端目标检测

COCODINOGithub图像分割开源项目深度学习目标检测

DINO采用改良的降噪锚框，提供先进的端到端目标检测功能，并在COCO数据集上实现了优异的性能表现。模型在较小的模型和数据规模下，达到了63.3AP的优秀成绩。DINO具有快速收敛的特点，使用ResNet-50主干网络仅在12个周期内即可达到49.4AP。项目还提供丰富的模型库和详细的性能评估，用户可以通过Google Drive或百度网盘获取模型检查点和训练日志。

Qwen2-VL-72B-Instruct - 多模态视觉语言模型实现图像视频理解与交互

GithubHuggingfaceQwen2-VL图像识别多模态处理开源项目模型视觉语言模型视频理解

Qwen2-VL-72B-Instruct是一款多模态视觉语言模型,具备处理任意分辨率图像和长达20分钟视频的能力。该模型可执行复杂视觉推理任务,支持多语言,并能作为智能代理操控设备。在多项视觉语言基准测试中,Qwen2-VL-72B-Instruct展现出优异的性能。

oneformer_ade20k_swin_tiny - 通过单一模型实现多任务图像分割的统一框架

GithubHuggingfaceOneFormer图像分割实例分割开源项目模型深度学习语义分割

OneFormer通过单一架构实现语义、实例和全景分割的统一处理。基于ADE20k数据集训练并采用Swin主干网络，这个紧凑型模型仅需一次训练即可完成多种图像分割任务。其独特的任务令牌机制实现了训练引导和推理动态化，为图像分割领域提供了高效的解决方案。

InsTag - LLM监督微调数据分析与优化工具

GithubInsTagLLM开源项目数据分析标签系统监督微调

InsTag是大型语言模型监督微调数据分析工具,通过标记和分类用户查询,量化评估数据多样性与复杂性。该工具为研究人员提供模型训练优化依据,基于InsTag分析结果,仅需6K样本即可训练出TagLM模型。在MT-Bench评测中,TagLM表现优于多个开源LLM,凸显了InsTag在提升LLM训练效率方面的价值。

mask2former-swin-large-ade-panoptic - 通用图像分割模型，提升性能和效率

ADE20kGithubHuggingfaceMask2FormerMaskFormer分割开源项目模型视觉

Mask2Former利用多尺度可变形注意力Transformer，提高图像分割性能与效率。其掩蔽注意力解码器在不增加计算负担的情况下提升表现，适用于实例、语义和全景分割。基于ADE20k全景分割数据集的训练研究，提供优化的分割方案。

Qwen2-VL-2B-Instruct - 先进的多模态AI模型支持高分辨率图像和长视频理解

GithubHuggingfaceQwen2-VL图像理解多模态开源项目模型视觉语言模型视频理解

Qwen2-VL-2B-Instruct是一个开源的视觉语言模型，支持处理任意分辨率的图像和20分钟以上的视频。该模型在多项视觉理解基准测试中表现出色，具有复杂推理和决策能力。Qwen2-VL-2B-Instruct采用了动态分辨率和多模态旋转位置嵌入技术，提高了多模态处理能力。此外，它还支持多语言理解，可应用于移动设备和机器人操作等领域。

相关项目

推荐项目

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

稿定AI

稿定设计是一个多功能的在线设计和创意平台，提供广泛的设计工具和资源，以满足不同用户的需求。从专业的图形设计师到普通用户，无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑，稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合，帮助用户轻松实现创意设计。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com