为视觉应用设计的高效算子,通过优化空间聚合和内存访问
DCNv4是一种为视觉应用设计的高效算子。通过优化空间聚合和内存访问,它解决了DCNv3的局限性。DCNv4在图像分类、分割和生成等任务中表现优异,收敛和处理速度显著提升,前向速度提高3倍以上。其卓越的性能和效率使DCNv4成为未来视觉模型的潜力基础构建块。
2024年1月15日
: 🚀 与InternImage相比,采用DCNv4的新型FlashInternImage具有更快的推理速度、更快的收敛速度和更好的性能!!!2024年1月15日
: 🚀 "DCNv4"发布了!我们推出了可变形卷积v4(DCNv4),这是一种高效且有效的算子,专为广泛的视觉应用而设计。DCNv4通过两个关键改进解决了其前身DCNv3的局限性:1. 移除空间聚合中的softmax归一化,以增强其动态特性和表达能力;2. 优化内存访问以最小化冗余操作,从而提高速度。这些改进使得DCNv4相比DCNv3具有显著更快的收敛速度,处理速度也大幅提升,DCNv4的前向速度提高了三倍以上。
DCNv4在各种任务中表现出色,包括图像分类、实例和语义分割,尤其是图像生成。当集成到潜在扩散模型中的U-Net等生成模型时,DCNv4优于其基准模型,突显了其增强生成模型的可能性。
在实际应用中,将InternImage模型中的DCNv3替换为DCNv4以创建FlashInternImage,在不做进一步修改的情况下,速度提升最高可达80%,并进一步提高了性能。
DCNv4在速度和效率方面的进步,加上其在各种视觉任务中的强大表现,展示了其作为未来视觉模型基础构建块的潜力。
名称 | 预训练 | 分辨率 | acc@1 | 参数量 | 下载 |
---|---|---|---|---|---|
FlashInternImage-T | ImageNet-1K | 224x224 | 83.6 | 30M | ckpt | cfg |
FlashInternImage-S | ImageNet-1K | 224x224 | 84.4 | 50M | ckpt | cfg |
FlashInternImage-B | ImageNet-1K | 224x224 | 84.9 | 97M | ckpt | cfg |
FlashInternImage-L | ImageNet-22K | 384x384 | 88.1 | 223M | ckpt | cfg |
骨干网络 | 方法 | 训练策略 | 边界框mAP | 掩码mAP | 配置 | 下载 |
---|---|---|---|---|---|---|
FlashInternImage-T | Mask-RCNN | 1x | 48.0 | 43.1 | config | ckpt | log |
FlashInternImage-T | Mask-RCNN | 3x | 49.5 | 44.0 | config | ckpt | log |
FlashInternImage-S | Mask-RCNN | 1x | 49.2 | 44.0 | config | ckpt | log |
FlashInternImage-S | Mask-RCNN | 3x | 50.5 | 44.9 | config | ckpt | log |
FlashInternImage-B | Mask-RCNN | 1x | 50.1 | 44.5 | config | ckpt | log |
FlashInternImage-B | Mask-RCNN | 3x | 50.6 | 45.4 | config | ckpt | log |
主干网络 | 方法 | 训练计划 | 边界框mAP | 掩码mAP | 配置 | 下载 |
:------------: | :---------: | :---------: | :-----: | :------: | :---: | :---: |
FlashInternImage-L | Cascade Mask R-CNN | 1x | 55.6 | 48.2 | 配置 | 模型 | 日志 |
FlashInternImage-L | Cascade Mask R-CNN | 3x | 56.7 | 48.9 | 配置 | 模型 |
主干网络 | 方法 | 学习率类型 | 预训练 | 训练计划 | 边界框mAP | 配置 | 下载 |
---|---|---|---|---|---|---|---|
FlashInternImage-T | DINO | 分层学习率 | ImageNet-1K | 1x | 54.7 | 配置 | 模型 | 日志 |
FlashInternImage-S | DINO | 分层学习率 | ImageNet-1K | 1x | 55.3 | 配置 | 模型 | 日志 |
FlashInternImage-B | DINO | 分层学习率 | ImageNet-1K | 1x | 56.0 | 配置 | 模型 | 日志 |
FlashInternImage-L | DINO | 0.1倍主干网络学习率 | ImageNet-22K | 1x | 58.8 | 配置 | 模型 | 日志 |
主干网络 | 方法 | 分辨率 | mIoU (单尺度/多尺度) | 配置 | 下载 |
---|---|---|---|---|---|
FlashInternImage-T | UperNet | 512x512 | 49.3 / 50.3 | 配置 | 模型 | 日志 |
FlashInternImage-S | UperNet | 512x512 | 50.6 / 51.6 | 配置 |