Project Icon

rtdetr_r50vd

全新RT-DETR模型提升精度与速度的实时物体检测方案

RT-DETR是面向实时物体检测的创新模型,通过混合编码器和最小化不确定性查询选择,实现高精度和快速检测。模型在COCO和Objects365数据集训练,支持速度调整以适应多种场景。RT-DETR-R50/R101在COCO上分别取得53.1%和54.3%的平均精度,在T4 GPU上达到108和74 FPS,性能超过YOLO模型。

RT-DETR_R50VD 项目介绍

背景介绍

RT-DETR 是一种实时端到端目标检测器,其全名是 Real-Time DEtection TRansformer。它的设计灵感来源于著名的 YOLO 系列,YOLO 系列由于在速度和准确性之间的合理平衡,成为实时目标检测领域的热门框架。然而,YOLO 在速度和精度方面都受到非极大值抑制(NMS)步骤的负面影响。

最近,基于 Transformer 的检测器(如 DETR)为取消 NMS 提供了一个替代方案,但其高计算成本限制了其实用性。RT-DETR 正是在这样的背景下被提出的,事实上,它也是首个解决这一困境的实时端到端目标检测器。

项目亮点

RT-DETR 通过两个步骤进行构建:首先提升速度的同时保持精度,其次在提升精度的同时保持速度。具体方法包括:

  • 设计了一种高效的混合编码器,通过分离尺度内交互和跨尺度融合来快速处理多尺度特征,提高了速度。
  • 提出了最小不确定性查询选择器,为解码器提供高质量的初始查询,提升了精度。
  • 支持灵活的速度调整,可以根据不同场景调整解码器层数,而无需重新训练。

模型性能

RT-DETR-R50 和 R101 在 COCO 数据集上分别达到了 53.1% 和 54.3% 的 AP(平均精度),在 T4 GPU 上分别可以达到 108 和 74 的 FPS(每秒帧数)。相比以前的先进 YOLO 模型,在速度和精度上都得到了超越。此外,RT-DETR-R50 在准确性上超越了 DINO-R50 2.2% 的 AP,并在 FPS 上快了约 21 倍。在用 Objects365 数据集进行预训练后,RT-DETR-R50 和 R101 达到了更高的 AP。

使用指南

要开始使用 RT-DETR,可以通过 Python 代码从预训练模型生成物体检测结果。模型使用 COCO 和 Objects365 数据集进行训练和评估,涉及标准的 COCO 度量,包括 AP、AP50、AP75 等。

训练细节

RT-DETR 模型利用 COCO 2017 物体检测数据集进行训练,该数据集包含 118k 张标注图像用于训练和 5k 张用于验证。训练过程中,图像被调整为 640x640 像素,并根据特定的均值和标准差进行重新缩放。

模型架构

RT-DETR 的架构包括一个高效混合编码器,它将多尺度特征通过基于注意力的尺度内特征交互和基于卷积的跨尺度特征融合转换为图像特征序列。接下来,不确定性最小的查询选择器会选择固定数量的编码器特征作为解码器的初始查询,最后解码器通过辅助预测头逐次优化这些查询以生成物体类别和边界框。

相关链接

参考文献

如果需要引用本项目的论文,您可以使用以下 BibTex:

@misc{lv2023detrs,
      title={DETRs Beat YOLOs on Real-time Object Detection},
      author={Yian Zhao and Wenyu Lv and Shangliang Xu and Jinman Wei and Guanzhong Wang and Qingqing Dang and Yi Liu and Jie Chen},
      year={2023},
      eprint={2304.08069},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

通过这篇介绍,相信读者可以更好地理解和使用 RT-DETR 模型进行高效的目标检测任务。

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号