DCNv4

新闻

2024年1月15日: 🚀 与InternImage相比，采用DCNv4的新型FlashInternImage具有更快的推理速度、更快的收敛速度和更好的性能！！！
2024年1月15日: 🚀 "DCNv4"发布了！

简介

我们推出了可变形卷积v4（DCNv4），这是一种高效且有效的算子，专为广泛的视觉应用而设计。DCNv4通过两个关键改进解决了其前身DCNv3的局限性：1. 移除空间聚合中的softmax归一化，以增强其动态特性和表达能力；2. 优化内存访问以最小化冗余操作，从而提高速度。这些改进使得DCNv4相比DCNv3具有显著更快的收敛速度，处理速度也大幅提升，DCNv4的前向速度提高了三倍以上。

DCNv4在各种任务中表现出色，包括图像分类、实例和语义分割，尤其是图像生成。当集成到潜在扩散模型中的U-Net等生成模型时，DCNv4优于其基准模型，突显了其增强生成模型的可能性。

在实际应用中，将InternImage模型中的DCNv3替换为DCNv4以创建FlashInternImage，在不做进一步修改的情况下，速度提升最高可达80%，并进一步提高了性能。

DCNv4在速度和效率方面的进步，加上其在各种视觉任务中的强大表现，展示了其作为未来视觉模型基础构建块的潜力。

已发布模型

<details> <summary> ImageNet图像分类 </summary> <br> <div>

名称	预训练	分辨率	acc@1	参数量	下载
FlashInternImage-T	ImageNet-1K	224x224	83.6	30M	ckpt \| cfg
FlashInternImage-S	ImageNet-1K	224x224	84.4	50M	ckpt \| cfg
FlashInternImage-B	ImageNet-1K	224x224	84.9	97M	ckpt \| cfg
FlashInternImage-L	ImageNet-22K	384x384	88.1	223M	ckpt \| cfg

</div> </details> <details> <summary> COCO目标检测和实例分割 </summary> <br> <div>

骨干网络	方法	训练策略	边界框mAP	掩码mAP	配置	下载
FlashInternImage-T	Mask-RCNN	1x	48.0	43.1	config	ckpt \| log
FlashInternImage-T	Mask-RCNN	3x	49.5	44.0	config	ckpt \| log
FlashInternImage-S	Mask-RCNN	1x	49.2	44.0	config	ckpt \| log
FlashInternImage-S	Mask-RCNN	3x	50.5	44.9	config	ckpt \| log
FlashInternImage-B	Mask-RCNN	1x	50.1	44.5	config	ckpt \| log
FlashInternImage-B	Mask-RCNN	3x	50.6	45.4	config	ckpt \| log
主干网络	方法	训练计划	边界框mAP	掩码mAP	配置	下载
:------------:	:---------:	:---------:	:-----:	:------:	:---:	:---:
FlashInternImage-L	Cascade Mask R-CNN	1x	55.6	48.2	配置	模型 \| 日志
FlashInternImage-L	Cascade Mask R-CNN	3x	56.7	48.9	配置	模型

主干网络	方法	学习率类型	预训练	训练计划	边界框mAP	配置	下载
FlashInternImage-T	DINO	分层学习率	ImageNet-1K	1x	54.7	配置	模型 \| 日志
FlashInternImage-S	DINO	分层学习率	ImageNet-1K	1x	55.3	配置	模型 \| 日志
FlashInternImage-B	DINO	分层学习率	ImageNet-1K	1x	56.0	配置	模型 \| 日志
FlashInternImage-L	DINO	0.1倍主干网络学习率	ImageNet-22K	1x	58.8	配置	模型 \| 日志

</div> </details> <details> <summary> ADE20K语义分割 </summary> <br> <div>

主干网络	方法	分辨率	mIoU (单尺度/多尺度)	配置	下载
FlashInternImage-T	UperNet	512x512	49.3 / 50.3	配置	模型 \| 日志
FlashInternImage-S	UperNet	512x512	50.6 / 51.6	配置	模型 \| 日志
FlashInternImage-B	UperNet	512x512	52.0 / 52.6	配置	模型 \| 日志
FlashInternImage-L	UperNet	640x640	55.6 / 56.0	配置	模型 \| 日志
主干网络	方法	分辨率	mIoU (单尺度)	配置	下载
:--------------:	:----------:	:----------:	:-----------:	:-----------:	:----------:
FlashInternImage-T	Mask2Former	512x512	51.2	配置文件	模型权重 \| 日志
FlashInternImage-S	Mask2Former	640x640	52.6	配置文件	模型权重 \| 日志
FlashInternImage-B	Mask2Former	640x640	53.4	配置文件	模型权重 \| 日志
FlashInternImage-L	Mask2Former	640x640	56.7	配置文件	模型权重 \| 日志

</div> </details>

引用

如果本工作对您的研究有帮助，请考虑引用以下BibTeX条目。


@article{xiong2024efficient,
      title={高效可变形卷积网络：重新思考视觉应用中的动态和稀疏算子}, 
      author={熊宇文 and 李志琦 and 陈云涛 and 王峰 and 朱熙洲 and 罗佳鹏 and 王文海 and 陆通 and 李鸿升 and 乔宇 and 路乐为 and 周杰 and 戴继峰},
      journal={arXiv预印本 arXiv:2401.06197},
      year={2024}
}

@article{wang2022internimage,
  title={InternImage: 探索具有可变形卷积的大规模视觉基础模型},
  author={王文海 and 戴继峰 and 陈哲 and 黄振航 and 李志琦 and 朱熙洲 and 胡晓伟 and 陆通 and 路乐为 and 李鸿升 and 其他},
  journal={arXiv预印本 arXiv:2211.05778},
  year={2022}
}

@inproceedings{zhu2022uni,
  title={Uni-perceiver: 预训练统一架构用于零样本和少样本任务的通用感知},
  author={朱熙洲 and 朱静国 and 李浩 and 吴晓石 and 李鸿升 and 王晓华 and 戴继峰},
  booktitle={CVPR},
  pages={16804--16815},
  year={2022}
}

@article{zhu2022uni,
  title={Uni-perceiver-moe: 利用条件专家混合学习稀疏通用模型},
  author={朱静国 and 朱熙洲 and 王文海 and 王晓华 and 李鸿升 and 王晓刚 and 戴继峰},
  journal={arXiv预印本 arXiv:2206.04674},
  year={2022}
}

@article{li2022uni,
  title={Uni-Perceiver v2: 用于大规模视觉和视觉语言任务的通用模型},
  author={李浩 and 朱静国 and 姜晓虎 and 朱熙洲 and 李鸿升 and 袁春 and 王晓华 and 乔宇 and 王晓刚 and 王文海 and 其他},
  journal={arXiv预印本 arXiv:2211.09808},
  year={2022}
}

@article{yang2022bevformer,
  title={BEVFormer v2: 通过透视监督将现代图像骨干网络适配到鸟瞰图识别},
  author={杨晨宇 and 陈云涛 and 田浩 and 陶晨鑫 and 朱熙洲 and 张兆翔 and 黄高 and 李宏阳 and 乔宇 and 路乐为 and 其他},
  journal={arXiv预印本 arXiv:2211.10439},
  year={2022}
}

@article{su2022towards,
  title={走向全能预训练：通过最大化多模态互信息},
  author={苏伟杰 and 朱熙洲 and 陶晨鑫 and 路乐为 and 李斌 and 黄高 and 乔宇 and 王晓刚 and 周杰 and 戴继峰},
  journal={arXiv预印本 arXiv:2211.09807},
  year={2022}
}

@inproceedings{li2022bevformer,
  title={BEVFormer: 通过时空变换器从多摄像头图像学习鸟瞰图表示},
  author={李志琦 and 王文海 and 李宏阳 and 谢恩泽 and 司马重豪 and 陆通 and 乔宇 and 戴继峰},
  booktitle={ECCV},
  pages={1--18},
  year={2022},
}