Grounding DINO 1.5
✨ 首次应用:如果您对我们的项目感兴趣并希望尝试我们的算法,您需要通过我们的申请API令牌网站申请相应的API令牌进行首次尝试。
📌 申请额外令牌配额:如果您发现我们的项目有帮助并需要更多API令牌配额,可以通过填写此表单申请额外令牌。我们的团队将审核您的请求,并在一两天内为您分配更多令牌。您也可以通过发送电子邮件给我们申请更多令牌。
🔥 Grounding DINO 1.6发布:Grounding DINO 1.6 Pro在零样本迁移基准测试中创造了新的最佳结果:COCO上55.4 AP,LVIS-minival上57.7 AP,LVIS-val上51.1 AP。此外,与1.5 Pro模型相比,它在几个特定检测场景中表现出显著优越的性能,如动物检测、文本检测等。有关1.6版本的更多详细信息,请参阅我们的官方博客。
目录
简介
我们介绍Grounding DINO 1.5,这是由IDEA Research开发的一套先进的开放集目标检测模型,旨在推进开放集目标检测的"边界"。该套件包含两个模型:
-
Grounding DINO 1.5 Pro:我们最强大的开放集目标检测模型,设计用于在广泛场景中具有更强的泛化能力。
-
Grounding DINO 1.5 Edge:我们最高效的边缘计算场景模型,针对许多需要边缘部署的应用中要求的更快速度进行了优化。
注:我们使用"edge"有双重含义,既指推进边界,也指在边缘设备上运行。
模型框架
Grounding DINO 1.5的整体框架如下图所示:
Grounding DINO 1.5 Pro保留了Grounding DINO的核心架构,采用深度早期融合架构。
性能
与Grounding DINO的并排性能对比
Grounding DINO 1.5 Pro与Grounding DINO对比
Grounding DINO 1.5和1.6 Pro的零样本迁移结果
模型 | COCO (AP box) | LVIS-minival (AP all) | LVIS-minival (AP rare) | LVIS-val (AP all) | LVIS-val (AP rare) | ODinW35 (AP avg) | ODinW13 (AP avg) |
---|---|---|---|---|---|---|---|
其他最佳 开放集模型 | 53.4 (OmDet-Turbo) | 47.6 (T-Rex2 visual) | 45.4 (T-Rex2 visual) | 45.3 (T-Rex2 visual) | 43.8 (T-Rex2 visual) | 30.1 (OmDet-Turbo) | 59.8 (APE-B) |
DetCLIPv3 | - | 48.8 | 49.9 | 41.4 | 41.4 | - | - |
Grounding DINO | 52.5 | 27.4 | 18.1 | - | - | 26.1 | 56.9 |
T-Rex2 (text) | 52.2 | 54.9 | 49.2 | 45.8 | 42.7 | 22.0 | - |
Grounding DINO 1.5 Pro | 54.3 | 55.7 | 56.1 | 47.6 | 44.6 | 30.2 | 58.7 |
Grounding DINO 1.6 Pro | 55.4 | 57.7 | 57.5 | 51.1 | 51.5 | - | - |
Grounding DINO 1.5作为强大的小样本学习器
我们验证了Grounding DINO 1.5 Pro在ODinW小样本基准测试上的迁移能力,Grounding DINO 1.5 Pro在ODinW小样本设置下取得了新的最先进结果。
模型 | 微调 | 1-样本 | 3-样本 | 5-样本 | 10-样本 | 全部 |
---|---|---|---|---|---|---|
DyHead (COCO) | 全部 | 31.9 ± 1.3 | 44.2 ± 0.3 | 44.7 ± 1.7 | 50.1 ± 1.6 | 63.2 |
DyHead (O365) | 全部 | 33.8 ± 3.5 | 43.6 ± 1.0 | 46.4 ± 1.1 | 50.8 ± 1.3 | 60.8 |
GLIP-L | 全部 | 59.9 ± 1.4 | 62.1 ± 0.7 | 64.2 ± 0.3 | 64.9 ± 0.7 | 68.9 |
GLIPv2-H | 全部 | 61.7 ± 0.5 | 64.1 ± 0.8 | 64.4 ± 0.6 | 65.9 ± 0.3 | 70.4 |
GLEE-Pro | 全部 | 59.4 ± 1.5 | 61.7 ± 0.5 | 64.3 ± 1.3 | 65.6 ± 0.4 | 69.0 |
MQ-GLIP-L | 全部 | 62.4 | 64.2 | 65.4 | 66.6 | 71.3 |
Grounding DINO 1.5 Pro | 全部 | 62.4 ± 1.1 | 66.3 ± 1.0 | 66.9 ± 0.2 | 67.9 ± 0.3 | 72.4 |
- "全部"表示微调整个模型。
- 遵循GLIP,对于每个小样本设置,我们使用不同的随机种子进行训练/验证集分割,训练模型三次。
在下游数据集上的微调结果
模型 | LVIS-minival (AP 全部) | LVIS-minival (AP 稀有) | LVIS-val (AP 全部) | LVIS-val (AP 稀有) | ODinW35 (AP 平均) | ODinW13 (AP 平均) |
---|---|---|---|---|---|---|
GLIP | - | - | - | - | - | 68.9 |
GLEE-Pro | - | - | - | - | - | 69.0 |
GLIPv2 | 59.8 | - | - | - | - | 70.4 |
OWL-ST + FT † | 54.4 | 46.1 | 49.4 | 44.6 | - | - |
DetCLIPv2 | 58.3 | 60.1 | 53.1 | 49.0 | - | 70.4 |
DetCLIPv3 | 60.5 | 60.7 | - | - | - | 72.1 |
DetCLIPv3 † | 60.8 | 56.7 | 54.1 | 45.8 | - | - |
Grounding DINO 1.5 Pro (零样本) | 55.7 | 56.1 | 47.6 | 44.6 | 30.2 | 58.7 |
Grounding DINO 1.5 Pro | 68.1 | 68.7 | 63.5 | 64.0 | 70.6 | 72.4 |
- †表示仅使用LVIS基础类别进行微调的结果。
API使用
1. 安装
pip install -v -e .
2. 从DeepDataSpace请求API
参考DeepDataSpace获取API密钥:https://deepdataspace.com/request_api
3. 运行演示代码
python demo/demo.py --token <API_TOKEN>
4. 在线Gradio演示
python gradio_app.py --token <API_TOKEN>
案例分析和定性可视化
常见物体检测
长尾物体检测
短描述定位
长描述定位
密集目标检测
视频目标检测
边缘设备上的高级目标检测
相关工作
- Grounding DINO:强大的开放集目标检测模型。
- Grounded-Segment-Anything:通过结合Grounding DINO和SAM的开放集检测和分割模型。
- T-Rex/T-Rex2:支持文本和视觉提示的通用开放集检测模型。
许可证
Grounding DINO 1.5 API 许可证
Grounding DINO 1.5 根据Apache 2.0许可证发布。请查看LICENSE文件了解更多信息。
版权所有 (c) IDEA。保留所有权利。
根据Apache许可证2.0版("许可证")获得许可;除非遵守许可证,否则不得使用这些文件。您可以在http://www.apache.org/licenses/LICENSE-2.0 获取许可证副本。
除非适用法律要求或书面同意,根据许可证分发的软件是基于"按原样"分发的,不附带任何明示或暗示的保证或条件。请参阅许可证以了解许可证下的特定语言和限制。
BibTeX
如果您发现我们的工作对您的研究有帮助,请考虑引用以下BibTeX条目。
@misc{ren2024grounding,
title={Grounding DINO 1.5: Advance the "Edge" of Open-Set Object Detection},
author={Tianhe Ren and Qing Jiang and Shilong Liu and Zhaoyang Zeng and Wenlong Liu and Han Gao and Hongjie Huang and Zhengyu Ma and Xiaoke Jiang and Yihao Chen and Yuda Xiong and Hao Zhang and Feng Li and Peijun Tang and Kent Yu and Lei Zhang},
year={2024},
eprint={2405.10300},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
@misc{jiang2024trex2,
title={T-Rex2: Towards Generic Object Detection via Text-Visual Prompt Synergy},
author={Qing Jiang and Feng Li and Zhaoyang Zeng and Tianhe Ren and Shilong Liu and Lei Zhang},
year={2024},
eprint={2403.14610},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
@article{liu2023grounding,
title={Grounding dino: Marrying dino with grounded pre-training for open-set object detection},
author={Liu, Shilong and Zeng, Zhaoyang and Ren, Tianhe and Li, Feng and Zhang, Hao and Yang, Jie and Li, Chunyuan and Yang, Jianwei and Su, Hang and Zhu, Jun and others},
journal={arXiv preprint arXiv:2303.05499},
year={2023}
}