Project Icon

LeYOLO

可扩展高效的目标检测CNN架构

LeYOLO是一种新型目标检测模型系列,通过创新的CNN架构设计实现了计算效率与准确性的优化平衡。该模型引入高效主干网络缩放、快速金字塔架构网络和解耦网络中的网络检测头,大幅降低计算负载。在COCO验证集上,LeYOLO-Small仅使用4.5 GFLOP就达到38.2%的mAP,比YOLOv9-Tiny减少42%计算量。LeYOLO系列具有强大可扩展性,适用于从超低计算需求(<1 GFLOP)到高效高性能(>4 GFLOPs)的多种场景。

alt text

PWC Open In Colab LeYOLO Demo

[新消息]

  • LeYOLO现已在HuggingFace上发布!您可以直接从HuggingFace模型中心下载LeYOLO权重:lhollard/leyolo-nano

  • 在Google Colab中添加了LeYOLO Open In Colab

摘要

论文链接:https://arxiv.org/abs/2406.14239

alt text

深度神经网络的计算效率对于目标检测至关重要,特别是当新模型优先考虑速度而非高效计算(FLOP)时。这种演变在某种程度上使嵌入式和移动导向的人工智能目标检测应用落后。在本文中,我们专注于基于FLOP的高效目标检测计算的神经网络架构设计选择,并提出了几项优化措施来提高基于YOLO模型的效率。

首先,我们引入了一种受倒置瓶颈和信息瓶颈原理理论洞察启发的高效骨干网络缩放方法。其次,我们提出了快速金字塔架构网络(FPAN),旨在促进快速多尺度特征共享,同时减少计算资源。最后,我们提出了一种解耦网络中的网络(DNiN)检测头,专为分类和回归任务提供快速而轻量级的计算。

基于这些优化并利用更高效的骨干网络,本文为目标检测和以YOLO为中心的模型提出了一种新的缩放范式,称为LeYOLO。我们的贡献在各种资源约束下始终优于现有模型,实现了前所未有的准确性和FLOP比。值得注意的是,LeYOLO-Small在COCO验证集上实现了38.2%的竞争性mAP分数,仅需4.5 FLOP(G),与最新的最先进YOLOv9-Tiny模型相比,计算负载减少了42%,同时实现了相似的准确性。我们的新型模型系列实现了之前未达到的FLOP与准确性比率,提供了从超低神经网络配置(< 1 GFLOP)到高效但要求严格的目标检测设置(> 4 GFLOPs)的可扩展性,在0.66、1.47、2.53、4.51、5.8和8.4 FLOP(G)下分别实现了25.2、31.3、35.2、38.2、39.3和41 mAP。

LeYOLO结果

LeYOLO系列模型在MSCOCO验证数据集上的结果。 预训练权重可在weights文件夹中找到。

模型mAP图像尺寸FLOP (G)
LeYOLONano25.23200.66
LeYOLONano31.34801.47
LeYOLOSmall35.24802.53
LeYOLOSmall38.26404.51
LeYOLOMedium39.36405.80
LeYOLOLarge41.07688.40

可重复性

通过使用cfg文件重现LeYOLO结果。 我们没有使用昂贵或花哨的训练方法,只使用了经典和默认的Ultralytics训练配方。 我们使非计算机科学家能够使用简单的训练方法快速重现他们的研究训练!

LeYOLO安装和快速入门

安装

  • 警告!可能需要升级pip
python3 -m pip install --upgrade pip
  • 进入根文件夹
pip install -e .

快速入门

使用CLI或Python接口来使用LeYOLO / YOLOv8

  • 最小示例可以在minimal.ipynb笔记本中找到。

Python

from ultralytics import YOLO

#加载LeYOLO模型
model = YOLO("weights/LeYOLOSmall.pt")

#使用Ultralytics的计算机视觉方法
model.train(data="coco8.yaml", epochs=3)
model.val()
model.export(format="onnx")

特别鸣谢

我们只有在Ultralytics团队自YOLOv5以来的出色工作的基础上才能完成这项工作。LeYOLO完全集成了Ultralytics,他们的支持和文档全面指导了训练、推理、验证和导出机制。

有关更多详细信息,请参阅Ultralytics文档:https://www.ultralytics.com。

联系方式

有任何问题或意见?请联系lilian.hollard@univ-reims.fr

兰斯香槟-阿登大学 - CEA, LRC DIGIT, LICIIS

精确自然科学学院 - Moulin de la Housse校区 BP 1039 - 51687 Reims Cedex 2 - 2/3号楼 - 法国 https://www.univ-reims.fr

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计 是一个多功能的在线设计和创意平台,提供广泛的设计工具和资源,以满足不同用户的需求。从专业的图形设计师到普通用户,无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑,稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合,帮助用户轻松实现创意设计。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号