Project Icon

DCNv4

为视觉应用设计的高效算子,通过优化空间聚合和内存访问

DCNv4是一种为视觉应用设计的高效算子。通过优化空间聚合和内存访问,它解决了DCNv3的局限性。DCNv4在图像分类、分割和生成等任务中表现优异,收敛和处理速度显著提升,前向速度提高3倍以上。其卓越的性能和效率使DCNv4成为未来视觉模型的潜力基础构建块。

DCNv4

新闻

  • 2024年1月15日: 🚀 与InternImage相比,采用DCNv4的新型FlashInternImage具有更快的推理速度、更快的收敛速度和更好的性能!!!
  • 2024年1月15日: 🚀 "DCNv4"发布了!

简介

我们推出了可变形卷积v4(DCNv4),这是一种高效且有效的算子,专为广泛的视觉应用而设计。DCNv4通过两个关键改进解决了其前身DCNv3的局限性:1. 移除空间聚合中的softmax归一化,以增强其动态特性和表达能力;2. 优化内存访问以最小化冗余操作,从而提高速度。这些改进使得DCNv4相比DCNv3具有显著更快的收敛速度,处理速度也大幅提升,DCNv4的前向速度提高了三倍以上。

DCNv4在各种任务中表现出色,包括图像分类、实例和语义分割,尤其是图像生成。当集成到潜在扩散模型中的U-Net等生成模型时,DCNv4优于其基准模型,突显了其增强生成模型的可能性。

在实际应用中,将InternImage模型中的DCNv3替换为DCNv4以创建FlashInternImage,在不做进一步修改的情况下,速度提升最高可达80%,并进一步提高了性能。

DCNv4在速度和效率方面的进步,加上其在各种视觉任务中的强大表现,展示了其作为未来视觉模型基础构建块的潜力。

已发布模型

ImageNet图像分类
名称预训练分辨率acc@1参数量下载
FlashInternImage-TImageNet-1K224x22483.630Mckpt | cfg
FlashInternImage-SImageNet-1K224x22484.450Mckpt | cfg
FlashInternImage-BImageNet-1K224x22484.997Mckpt | cfg
FlashInternImage-LImageNet-22K384x38488.1223Mckpt | cfg
COCO目标检测和实例分割
骨干网络方法训练策略边界框mAP掩码mAP配置下载
FlashInternImage-TMask-RCNN1x48.043.1configckpt | log
FlashInternImage-TMask-RCNN3x49.544.0configckpt | log
FlashInternImage-SMask-RCNN1x49.244.0configckpt | log
FlashInternImage-SMask-RCNN3x50.544.9configckpt | log
FlashInternImage-BMask-RCNN1x50.144.5configckpt | log
FlashInternImage-BMask-RCNN3x50.645.4configckpt | log
主干网络方法训练计划边界框mAP掩码mAP配置下载
:------------::---------::---------::-----::------::---::---:
FlashInternImage-LCascade Mask R-CNN1x55.648.2配置模型 | 日志
FlashInternImage-LCascade Mask R-CNN3x56.748.9配置模型
主干网络方法学习率类型预训练训练计划边界框mAP配置下载
FlashInternImage-TDINO分层学习率ImageNet-1K1x54.7配置模型 | 日志
FlashInternImage-SDINO分层学习率ImageNet-1K1x55.3配置模型 | 日志
FlashInternImage-BDINO分层学习率ImageNet-1K1x56.0配置模型 | 日志
FlashInternImage-LDINO0.1倍主干网络学习率ImageNet-22K1x58.8配置模型 | 日志
ADE20K语义分割
主干网络方法分辨率mIoU (单尺度/多尺度)配置下载
FlashInternImage-TUperNet512x51249.3 / 50.3配置模型 | 日志
FlashInternImage-SUperNet512x51250.6 / 51.6配置模型 | 日志
FlashInternImage-BUperNet512x51252.0 / 52.6配置模型 | 日志
FlashInternImage-LUperNet640x64055.6 / 56.0配置模型 | 日志
主干网络方法分辨率mIoU (单尺度)配置下载
:--------------::----------::----------::-----------::-----------::----------:
FlashInternImage-TMask2Former512x51251.2配置文件模型权重 | 日志
FlashInternImage-SMask2Former640x64052.6配置文件模型权重 | 日志
FlashInternImage-BMask2Former640x64053.4配置文件模型权重 | 日志
FlashInternImage-LMask2Former640x64056.7配置文件模型权重 | 日志

引用

如果本工作对您的研究有帮助,请考虑引用以下BibTeX条目。


@article{xiong2024efficient,
      title={高效可变形卷积网络:重新思考视觉应用中的动态和稀疏算子}, 
      author={熊宇文 and 李志琦 and 陈云涛 and 王峰 and 朱熙洲 and 罗佳鹏 and 王文海 and 陆通 and 李鸿升 and 乔宇 and 路乐为 and 周杰 and 戴继峰},
      journal={arXiv预印本 arXiv:2401.06197},
      year={2024}
}

@article{wang2022internimage,
  title={InternImage: 探索具有可变形卷积的大规模视觉基础模型},
  author={王文海 and 戴继峰 and 陈哲 and 黄振航 and 李志琦 and 朱熙洲 and 胡晓伟 and 陆通 and 路乐为 and 李鸿升 and 其他},
  journal={arXiv预印本 arXiv:2211.05778},
  year={2022}
}

@inproceedings{zhu2022uni,
  title={Uni-perceiver: 预训练统一架构用于零样本和少样本任务的通用感知},
  author={朱熙洲 and 朱静国 and 李浩 and 吴晓石 and 李鸿升 and 王晓华 and 戴继峰},
  booktitle={CVPR},
  pages={16804--16815},
  year={2022}
}

@article{zhu2022uni,
  title={Uni-perceiver-moe: 利用条件专家混合学习稀疏通用模型},
  author={朱静国 and 朱熙洲 and 王文海 and 王晓华 and 李鸿升 and 王晓刚 and 戴继峰},
  journal={arXiv预印本 arXiv:2206.04674},
  year={2022}
}

@article{li2022uni,
  title={Uni-Perceiver v2: 用于大规模视觉和视觉语言任务的通用模型},
  author={李浩 and 朱静国 and 姜晓虎 and 朱熙洲 and 李鸿升 and 袁春 and 王晓华 and 乔宇 and 王晓刚 and 王文海 and 其他},
  journal={arXiv预印本 arXiv:2211.09808},
  year={2022}
}

@article{yang2022bevformer,
  title={BEVFormer v2: 通过透视监督将现代图像骨干网络适配到鸟瞰图识别},
  author={杨晨宇 and 陈云涛 and 田浩 and 陶晨鑫 and 朱熙洲 and 张兆翔 and 黄高 and 李宏阳 and 乔宇 and 路乐为 and 其他},
  journal={arXiv预印本 arXiv:2211.10439},
  year={2022}
}

@article{su2022towards,
  title={走向全能预训练:通过最大化多模态互信息},
  author={苏伟杰 and 朱熙洲 and 陶晨鑫 and 路乐为 and 李斌 and 黄高 and 乔宇 and 王晓刚 and 周杰 and 戴继峰},
  journal={arXiv预印本 arXiv:2211.09807},
  year={2022}
}

@inproceedings{li2022bevformer,
  title={BEVFormer: 通过时空变换器从多摄像头图像学习鸟瞰图表示},
  author={李志琦 and 王文海 and 李宏阳 and 谢恩泽 and 司马重豪 and 陆通 and 乔宇 and 戴继峰},
  booktitle={ECCV},
  pages={1--18},
  year={2022},
}
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计 是一个多功能的在线设计和创意平台,提供广泛的设计工具和资源,以满足不同用户的需求。从专业的图形设计师到普通用户,无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑,稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合,帮助用户轻松实现创意设计。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号