GroundingDINO

语言驱动的开放集目标检测模型

Grounding DINO 目标检测开放集检测语言指导计算机视觉 Github 开源项目

GroundingDINO是一个基于语言的开放集目标检测模型,能够检测图像中的任意物体。该模型在COCO数据集上实现了零样本52.5 AP和微调后63.0 AP的性能。GroundingDINO支持CPU模式,可与Stable Diffusion等模型集成用于图像编辑,还能与SAM结合实现分割功能。此外,项目提供了丰富的演示和教程资源,为开放世界目标检测领域带来了新的解决方案。

访问官网

Github

Huggingface

介绍相关项目

conditional-detr-resnet-50 - 基于条件机制增强ResNet-50的图像检测模型

COCO 2017Conditional DETRGithubHuggingfaceResNet-50对象检测开源项目快速训练收敛模型

Conditional DETR结合了ResNet-50，通过条件交叉注意力机制加速COCO 2017数据集上的训练收敛。在目标检测任务中，该模型解决了训练收敛缓慢的问题，提升了特征提取和目标分类的效率。通过条件空间查询机制，模型能够更高效地定位目标区域，提高了训练速度。在R50和R101骨干网下加速6.7倍，DC5-R50和DC5-R101下加速10倍，并支持PyTorch。

PyDGN - 深度图网络研究与实验的Python开源库

GithubPyDGNPython库图分类开源项目机器学习深度图网络

PyDGN是一个面向深度图网络(DGNs)研究的开源Python库。该库提供自动化的数据处理、实验管理和并行计算功能,支持模型选择与风险评估。PyDGN简化了图学习实验流程,有助于快速原型设计和结果复现,为图神经网络研究提供了实用工具。它支持CPU和GPU并行计算,可同时评估多种模型配置。PyDGN适用于各类深度图网络研究,包括图分类、节点分类等任务。该库提供了完整的实验管理流程,从数据预处理到模型评估,有助于提高研究效率和结果可靠性。

NVLM-D-72B - 开源前沿级多模态大语言模型实现视觉语言任务的最新突破

GithubHuggingfaceNVLM人工智能多模态大语言模型开源项目模型视觉语言

NVLM-D-72B是一款开源的多模态大语言模型，在视觉语言任务上表现卓越，达到了与顶级专有和开源模型相当的水平。该模型不仅擅长视觉语言任务，在多模态训练后其纯文本处理能力也有所提升。NVLM-D-72B可执行光学字符识别、多模态推理、定位、常识推理等多种任务，为AI研究社区提供了强大的开源多模态能力。

models - 探索最先进的机器学习模型与技术

GithubONNX Model Zoo图像分类对象检测开源项目机器学习模型语言处理

ONNX Model Zoo是一个开源平台，汇集了各种预训练且处于技术前沿的机器学习模型，涵盖计算机视觉、自然语言处理等多个领域。旨在为开发者、研究人员和技术爱好者提供高效实用的AI工具，加速机器学习技术的应用和发展。此外，ONNX Model Zoo支持多种框架和工具，通过共同的文件格式和操作集，促进了AI开发的灵活性和互操作性。平台以开放性和社区驱动的特性为己任，含有诸如图像分类、对象检测等主要模型，并通过简易接口及高级工具满足不同用户需求，使其既适应初学者也满足专业人士的需求。

GLIGEN - 开放式条件引导的文本到图像生成模型

GLIGENGithub人工智能开源项目文本到图像生成深度学习计算机视觉

GLIGEN是一个创新的开放式条件引导文本到图像生成模型。它扩展了冻结文本到图像模型的功能,支持框、关键点和图像等多种引导条件。在COCO和LVIS数据集的零样本测试中,GLIGEN大幅超越了现有的有监督布局到图像生成基线。这项技术在开放世界场景下的应用前景广阔,同时也需关注其局限性和伦理影响。

Binoculars - 无需训练的AI文本检测工具

AI生成文本检测BinocularsGithub开源项目语言模型零样本领域无关

Binoculars是一款无需训练数据的AI文本检测工具，利用语言模型预训练数据集重叠原理识别生成内容。提供Python接口和在线演示，支持零样本检测，目前主要适用于英语文本。该项目为AI文本识别领域引入了新的解决思路。Binoculars适用于学术界、新闻媒体、内容平台等需要识别AI生成文本的场景，有助于维护信息真实性和原创性。

OpenGraph - 图神经网络零样本学习的突破性研究

GithubOpenGraph图生成图神经网络大语言模型开源项目零样本学习

OpenGraph是一个创新的图基础模型,通过从大语言模型中提取零样本图泛化能力,解决了图神经网络领域的关键技术挑战。该模型引入了统一图标记器、可扩展图transformer和基于大语言模型的数据增强机制,在多种场景下展现出优异的零样本图学习性能。这项研究为图神经网络的泛化能力提升和应用场景拓展开辟了新方向。

gRefCOCO - 泛化指代表达分割的创新数据集与评估基准

GRECGRESGithubgRefCOCO开源项目指代表达分割视觉语言模型

gRefCOCO是一个面向泛化指代表达分割（GRES）任务的数据集，支持泛化指代表达理解（GREC）和泛化指代表达分割（GRES）两项主要任务。项目提供数据集下载、使用指南、评估指标代码和基于MDETR的训练推理示例，为计算机视觉研究提供了有力工具，推动了指代分割领域的进展。

RADIO - 通过多模型融合提升性能的通用视觉基础模型

CLIPDINOv2GithubRADIOSAM开源项目视觉基础模型

AM-RADIO是一个将多个大型视觉基础模型蒸馏为单一模型的框架。其核心产物RADIO作为新一代视觉基础模型,在多个视觉任务中表现优异,可作为通用视觉骨干网络使用。RADIO通过蒸馏整合了CLIP、DINOv2和SAM等模型,保留了文本定位和分割对应等特性。在ImageNet零样本分类、kNN和线性探测分割等任务上,RADIO超越了教师模型,同时提升了视觉语言模型的性能。此外,RADIO支持任意分辨率和非方形图像输入,并提供了名为E-RADIO的高效变体。

rtdetr_r101vd_coco_o365 - 实时目标检测革新者RT-DETR超越传统性能表现

GithubHuggingfaceRT-DETR开源项目模型模型训练深度学习目标检测计算机视觉

RT-DETR通过混合编码器架构和不确定性最小化查询选择方法实现目标检测任务。在COCO数据集测试中，RT-DETR-R101版本达到56.2% AP精度，T4 GPU上处理速度为74 FPS。模型可通过调整解码器层数实现速度与精度的灵活平衡，为实时目标检测领域提供新的技术方案。

相关项目

项目侧边栏1

项目侧边栏2

推荐项目

Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具，简化了选题、文献检索至论文撰写的整个过程。通过简单设定，平台可快速生成高质量论文大纲和全文，配合图表、参考文献等一应俱全，同时提供开题报告和答辩PPT等增值服务，保障数据安全，有效提升写作效率和论文质量。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号