DCNv4
新闻
2024年1月15日
: 🚀 与InternImage相比,采用DCNv4的新型FlashInternImage具有更快的推理速度、更快的收敛速度和更好的性能!!!2024年1月15日
: 🚀 "DCNv4"发布了!
简介
我们推出了可变形卷积v4(DCNv4),这是一种高效且有效的算子,专为广泛的视觉应用而设计。DCNv4通过两个关键改进解决了其前身DCNv3的局限性:1. 移除空间聚合中的softmax归一化,以增强其动态特性和表达能力;2. 优化内存访问以最小化冗余操作,从而提高速度。这些改进使得DCNv4相比DCNv3具有显著更快的收敛速度,处理速度也大幅提升,DCNv4的前向速度提高了三倍以上。
DCNv4在各种任务中表现出色,包括图像分类、实例和语义分割,尤其是图像生成。当集成到潜在扩散模型中的U-Net等生成模型时,DCNv4优于其基准模型,突显了其增强生成模型的可能性。
在实际应用中,将InternImage模型中的DCNv3替换为DCNv4以创建FlashInternImage,在不做进一步修改的情况下,速度提升最高可达80%,并进一步提高了性能。
DCNv4在速度和效率方面的进步,加上其在各种视觉任务中的强大表现,展示了其作为未来视觉模型基础构建块的潜力。
已发布模型
ImageNet图像分类
COCO目标检测和实例分割
骨干网络 | 方法 | 训练策略 | 边界框mAP | 掩码mAP | 配置 | 下载 |
---|---|---|---|---|---|---|
FlashInternImage-T | Mask-RCNN | 1x | 48.0 | 43.1 | config | ckpt | log |
FlashInternImage-T | Mask-RCNN | 3x | 49.5 | 44.0 | config | ckpt | log |
FlashInternImage-S | Mask-RCNN | 1x | 49.2 | 44.0 | config | ckpt | log |
FlashInternImage-S | Mask-RCNN | 3x | 50.5 | 44.9 | config | ckpt | log |
FlashInternImage-B | Mask-RCNN | 1x | 50.1 | 44.5 | config | ckpt | log |
FlashInternImage-B | Mask-RCNN | 3x | 50.6 | 45.4 | config | ckpt | log |
主干网络 | 方法 | 训练计划 | 边界框mAP | 掩码mAP | 配置 | 下载 |
:------------: | :---------: | :---------: | :-----: | :------: | :---: | :---: |
FlashInternImage-L | Cascade Mask R-CNN | 1x | 55.6 | 48.2 | 配置 | 模型 | 日志 |
FlashInternImage-L | Cascade Mask R-CNN | 3x | 56.7 | 48.9 | 配置 | 模型 |
ADE20K语义分割
主干网络 | 方法 | 分辨率 | mIoU (单尺度/多尺度) | 配置 | 下载 |
---|---|---|---|---|---|
FlashInternImage-T | UperNet | 512x512 | 49.3 / 50.3 | 配置 | 模型 | 日志 |
FlashInternImage-S | UperNet | 512x512 | 50.6 / 51.6 | 配置 | 模型 | 日志 |
FlashInternImage-B | UperNet | 512x512 | 52.0 / 52.6 | 配置 | 模型 | 日志 |
FlashInternImage-L | UperNet | 640x640 | 55.6 / 56.0 | 配置 | 模型 | 日志 |
主干网络 | 方法 | 分辨率 | mIoU (单尺度) | 配置 | 下载 |
:--------------: | :----------: | :----------: | :-----------: | :-----------: | :----------: |
FlashInternImage-T | Mask2Former | 512x512 | 51.2 | 配置文件 | 模型权重 | 日志 |
FlashInternImage-S | Mask2Former | 640x640 | 52.6 | 配置文件 | 模型权重 | 日志 |
FlashInternImage-B | Mask2Former | 640x640 | 53.4 | 配置文件 | 模型权重 | 日志 |
FlashInternImage-L | Mask2Former | 640x640 | 56.7 | 配置文件 | 模型权重 | 日志 |
引用
如果本工作对您的研究有帮助,请考虑引用以下BibTeX条目。
@article{xiong2024efficient,
title={高效可变形卷积网络:重新思考视觉应用中的动态和稀疏算子},
author={熊宇文 and 李志琦 and 陈云涛 and 王峰 and 朱熙洲 and 罗佳鹏 and 王文海 and 陆通 and 李鸿升 and 乔宇 and 路乐为 and 周杰 and 戴继峰},
journal={arXiv预印本 arXiv:2401.06197},
year={2024}
}
@article{wang2022internimage,
title={InternImage: 探索具有可变形卷积的大规模视觉基础模型},
author={王文海 and 戴继峰 and 陈哲 and 黄振航 and 李志琦 and 朱熙洲 and 胡晓伟 and 陆通 and 路乐为 and 李鸿升 and 其他},
journal={arXiv预印本 arXiv:2211.05778},
year={2022}
}
@inproceedings{zhu2022uni,
title={Uni-perceiver: 预训练统一架构用于零样本和少样本任务的通用感知},
author={朱熙洲 and 朱静国 and 李浩 and 吴晓石 and 李鸿升 and 王晓华 and 戴继峰},
booktitle={CVPR},
pages={16804--16815},
year={2022}
}
@article{zhu2022uni,
title={Uni-perceiver-moe: 利用条件专家混合学习稀疏通用模型},
author={朱静国 and 朱熙洲 and 王文海 and 王晓华 and 李鸿升 and 王晓刚 and 戴继峰},
journal={arXiv预印本 arXiv:2206.04674},
year={2022}
}
@article{li2022uni,
title={Uni-Perceiver v2: 用于大规模视觉和视觉语言任务的通用模型},
author={李浩 and 朱静国 and 姜晓虎 and 朱熙洲 and 李鸿升 and 袁春 and 王晓华 and 乔宇 and 王晓刚 and 王文海 and 其他},
journal={arXiv预印本 arXiv:2211.09808},
year={2022}
}
@article{yang2022bevformer,
title={BEVFormer v2: 通过透视监督将现代图像骨干网络适配到鸟瞰图识别},
author={杨晨宇 and 陈云涛 and 田浩 and 陶晨鑫 and 朱熙洲 and 张兆翔 and 黄高 and 李宏阳 and 乔宇 and 路乐为 and 其他},
journal={arXiv预印本 arXiv:2211.10439},
year={2022}
}
@article{su2022towards,
title={走向全能预训练:通过最大化多模态互信息},
author={苏伟杰 and 朱熙洲 and 陶晨鑫 and 路乐为 and 李斌 and 黄高 and 乔宇 and 王晓刚 and 周杰 and 戴继峰},
journal={arXiv预印本 arXiv:2211.09807},
year={2022}
}
@inproceedings{li2022bevformer,
title={BEVFormer: 通过时空变换器从多摄像头图像学习鸟瞰图表示},
author={李志琦 and 王文海 and 李宏阳 and 谢恩泽 and 司马重豪 and 陆通 and 乔宇 and 戴继峰},
booktitle={ECCV},
pages={1--18},
year={2022},
}