多光谱目标检测
简介
跨模态融合Transformer用于多光谱目标检测的官方代码。
使用Transformer和Yolov5进行多光谱目标检测
摘要
多光谱图像对可以提供综合信息,使目标检测应用在开放世界中更加可靠和稳健。 为充分利用不同模态,我们在本文中提出了一种简单而有效的跨模态特征融合方法,称为跨模态融合Transformer(CFT)。 与之前基于CNN的工作不同,在Transformer方案的指导下,我们的网络在特征提取阶段学习长程依赖关系并集成全局上下文信息。 更重要的是,通过利用Transformer的自注意力机制,网络可以自然地进行同时的模态内和模态间融合,并稳健地捕捉RGB和热红外域之间的潜在交互,从而显著提高多光谱目标检测的性能。 在多个数据集上进行的大量实验和消融研究表明,我们的方法是有效的,并达到了最先进的检测性能。
演示
夜间场景
白天场景
概述
引用
如果您在研究中使用了此代码库,请引用我们的论文:
@article{qingyun2022cross,
title={Cross-modality attentive feature fusion for object detection in multispectral remote sensing imagery},
author={Qingyun, Fang and Zhaokui, Wang},
journal={Pattern Recognition},
volume={130},
pages={108786},
year={2022},
publisher={Elsevier}
}
@article{fang2021cross,
title={Cross-Modality Fusion Transformer for Multispectral Object Detection},
author={Fang Qingyun and Han Dapeng and Wang Zhaokui},
journal={arXiv preprint arXiv:2111.00273},
year={2021}
}
安装
需要Python>=3.6.0,并安装所有requirements.txt中的依赖,包括PyTorch>=1.7(与yolov5相同 https://github.com/ultralytics/yolov5 )。
克隆仓库
git clone https://github.com/DocF/multispectral-object-detection
安装依赖
$ cd multispectral-object-detection
$ pip install -r requirements.txt
数据集
-[FLIR] [Google Drive] [百度网盘] 提取码:qwer
一个新的对齐版本。
-[LLVIP] 下载
-[VEDAI] 下载
你需要将所有标注转换为YOLOv5格式。
参考: https://github.com/ultralytics/yolov5/wiki/Train-Custom-Data
运行
下载预训练权重
yolov5权重(预训练)
-[yolov5s] 谷歌云盘
-[yolov5m] 谷歌云盘
-[yolov5l] 谷歌云盘
-[yolov5x] 谷歌云盘
CFT权重
-[LLVIP] 谷歌云盘
-[FLIR] 谷歌云盘
修改数据配置
一些示例在data/multispectral/目录下
修改模型配置
一些示例在models/transformer/目录下
注意!!!我们在论文中使用了xxxx_transfomerx3_dataset.yaml。
训练、测试和检测
训练: python train.py
测试: python test.py
检测: python detect_twostream.py
结果
数据集 | CFT | mAP50 | mAP75 | mAP |
---|---|---|---|---|
FLIR | 73.0 | 32.0 | 37.4 | |
FLIR | ✔️ | 78.7 (Δ5.7) | 35.5 (Δ3.5) | 40.2 (Δ2.8) |
LLVIP | 95.8 | 71.4 | 62.3 | |
LLVIP | ✔️ | 97.5 (Δ1.7) | 72.9 (Δ1.5) | 63.6 (Δ1.3) |
VEDAI | 79.7 | 47.7 | 46.8 | |
VEDAI | ✔️ | 85.3 (Δ5.6) | 65.9(Δ18.2) | 56.0 (Δ9.2) |
LLVIP
对数平均漏检率
模型 | 对数平均漏检率 |
---|---|
YOLOv3-RGB | 37.70% |
YOLOv3-IR | 17.73% |
YOLOv5-RGB | 22.59% |
YOLOv5-IR | 10.66% |
基线(我们的) | 6.91% |
CFT(我们的) | 5.40% |
漏检率 - FPPI 曲线