视觉中心的BEV感知

视觉中心的BEV感知:一项调查

介绍

(1) 数据集

(2) 基于几何的PV2BEV

基于单应性的PV2BEV

公开论文:

IPM:反透视映射简化了光流计算和障碍物检测 (生物控制学'1991) [论文]
DSM:从街道级图像自动生成密集视觉语义地图 (IROS'12) [论文]
MapV:学习将车辆映射到鸟瞰图 (ICIAP'17) [论文]
BridgeGAN:生成对抗性前视图到鸟瞰图合成 (3DV'18) [论文][项目页面]
VPOE:基于反透视映射图像的深度学习车辆位置和方向估计 (IV'19) [论文]
3D-LaneNet:端到端3D多车道检测 (ICCV'19) [论文]
正确(直角)视角:使用增强反透视映射改进道路场景理解 (IV'19) [论文]
Cam2BEV:一种将多个车载摄像头图像转换为鸟瞰语义分割图像的Sim2Real深度学习方法 (ITSC'20) [论文] [项目页面]
MonoLayout:从单幅图像中的模态场景布局 (WACA'20) [论文] [项目页面]
MVNet:具有特征透视变换的多视图检测 (ECCV'20) [论文] [项目页面]
OGMs:在扁平移动物体中驾驶:用于整体轨迹规划的单目相机鸟瞰占用网格 (WACA'21) [论文] [项目页面]
TrafCam3D:通过单应性使用未校准交通摄像头的单目3D车辆检测 (IROS'21) [论文] [项目页面]
SHOT:用于多视图行人检测的堆叠单应性变换 (ICCV'21) [论文]
HomoLoss:用于单目3D物体检测的单应性损失 (CVPR'22) [论文]

时间顺序概览:

基于深度的PV2BEV

公开论文:

OFT:用于单目3D物体检测的正交特征变换 (BMVC'19) [论文] [项目页面]
CaDDN:用于单目3D物体检测的分类深度分布网络 (CVPR'21) [论文] [项目页面]
DSGN:用于3D物体检测的深度立体几何网络 (CVPR'20) [论文] [项目页面]
Lift, Splat, Shoot:通过隐式反投影到3D来编码任意相机装置的图像 (ECCV'20) [论文] [项目页面]
PanopticSeg:使用单目前视图图像的鸟瞰全景分割 (RA-L'22) [论文] [项目页面]
FIERY:从周围单目相机在鸟瞰视图中预测未来实例 (ICCV'21) [论文] [项目页面]
LIGA-Stereo:学习用于基于立体视觉的3D检测器的LiDAR几何感知表示 (ICCV'21) [论文] [项目页面]
ImVoxelNet:用于单目和多视图通用3D物体检测的图像到体素投影 (WACV'22) [论文] [项目页面]
BEVDet:鸟瞰视图中的高性能多相机3D物体检测 (Arxiv'21) [论文] [项目页面]
M^2BEV:使用统一鸟瞰表示的多相机联合3D检测和分割 (Arxiv'22) [论文] [项目页面]
StretchBEV:在空间和时间上延伸未来实例预测 (ECCV'22) [论文] [项目页面]
DfM:利用运动深度的单目3D物体检测 (ECCV'22) [论文] [项目页面]
BEVDet4D:在多相机3D物体检测中利用时间线索 (Arxiv'22) [论文] [项目页面]
BEVerse:以视觉为中心的自动驾驶统一感知和预测的鸟瞰视图 (Arxiv'22) [论文] [项目页面]
MV-FCOS3D++:使用预训练单目骨干网络的多视图仅相机4D物体检测 (Arxiv'22) [论文] [项目页面]
将人放在合适的位置:单目回归3D人物深度 (CVPR'22) [代码] [项目页面] [论文] [视频] [RH数据集]

时间顺序概览:

基准测试结果:

(3) 基于网络的PV2BEV

基于MLP的PV2BEV

公开论文:

VED: 使用卷积变分编码器-解码器网络的单目语义占用栅格映射 (RA-L'19) [论文] [项目页面]
VPN: 用于感知周围环境的跨视图语义分割 (IROS'20) [论文] [项目页面]
FishingNet: 网格中语义热图的未来推理 (Arxiv'20) [论文]
PON: 使用金字塔占用网络从图像预测语义地图表示 (CVPR'20) [论文] [项目页面]
STA-ST: 在鸟瞰图车辆估计中实现时空聚合 (ICRA'21) [论文]
HDMapNet: 在线高清地图构建和评估框架 (ICRA'22) [论文] [项目页面]
通过跨视图转换有效地投射你的视角: 单目道路场景布局估计 (CVPR'21) [论文] [项目页面]
HFT: 通过混合特征变换提升透视表示 (Arxiv'22) [论文] [项目页面]

时间顺序概览:

基准结果:

基于Transformer的PV2BEV

公开论文:

STSU: 从车载图像结构化鸟瞰交通场景理解 (ICCV'21) [论文] [项目页面]
Image2Map: 将图像转换为地图 (ICRA'22) [论文] [项目页面]
DETR3D: 通过3D到2D查询从多视图图像进行3D目标检测 (CoRL'21) [论文] [项目页面]
TopologyPL: 从单个车载相机图像保持拓扑的局部道路网络估计 (CVPR'22) [论文] [项目页面]
PETR: 多视图3D目标检测的位置嵌入变换 (ECCV'22) [论文] [项目页面]
BEVSegFormer: 从任意相机配置的鸟瞰语义分割 (Arxiv'22) [论文]
PersFormer: 3D车道线检测的新基准 (ECCV'22) [论文] [项目页面]
MonoDTR: 具有深度感知Transformer的单目3D目标检测 (CVPR'22) [页面] [项目页面]
MonoDETR: 用于单目3D目标检测的深度引导Transformer (Arxiv'22) [论文] [项目页面]
BEVFormer: 通过时空Transformer从多相机图像学习鸟瞰表示 (ECCV'22) [论文] [项目页面]
GitNet: 基于几何先验的鸟瞰分割变换 (ECCV'22) [论文]
Graph-DETR3D: 重新思考多视图3D目标检测中的重叠区域 (MM'22) [论文]
CVT: 用于实时地图视图语义分割的跨视图Transformers (CVPR'22) [论文] [项目页面]
PETRv2: 多相机图像3D感知的统一框架 (Arxiv'22) [论文] [项目页面]
Ego3RT: 作为光线追踪学习自我3D表示 (ECCV'22) [论文] [项目页面]
GKT: 通过几何引导核Transformer进行高效且鲁棒的2D到BEV表示学习 (Arxiv'22) [论文] [项目页面]
PolarDETR: 基于视觉的环视3D检测极坐标参数化 (Arxiv'22) [论文] [项目页面]
LaRa: 用于多相机鸟瞰语义分割的隐变量和射线 (Arxiv'22) [论文]
SRCN3D: 稀疏R-CNN 3D环视相机3D目标检测和跟踪用于自动驾驶 (Arxiv'22) [论文] [项目页面]
PolarFormer: 具有极坐标Transformers的多相机3D目标检测 (Arxiv'22)[论文] [项目页面]
ORA3D: 重叠区域感知多视图3D目标检测 (Arxiv'22) [论文]
CoBEVT: 使用稀疏Transformers的协作鸟瞰语义分割 (Arxiv'22) [论文]

时间顺序概览:

基准结果:

(4) 扩展

BEV下的多任务学习

FIERY:从环绕单目相机预测鸟瞰图中的未来实例(ICCV'21) [论文] [项目页面]
StretchBEV:在空间和时间上拉伸未来实例预测(ECCV'22) [论文] [项目页面]
BEVerse:以视觉为中心的自动驾驶统一感知和预测的鸟瞰图(Arxiv'22) [论文] [项目页面]
M^2BEV:具有统一鸟瞰图表示的多摄像头联合3D检测和分割(Arxiv'22) [论文] [项目页面]
STSU:从车载图像结构化鸟瞰交通场景理解(ICCV'21) [论文] [项目页面]
BEVFormer:通过时空Transformer从多摄像头图像学习鸟瞰图表示(ECCV'22) [论文] [项目页面]
Ego3RT:通过光线追踪学习自我3D表示(ECCV'22) [论文] [项目页面]
PETRv2:用于多摄像头图像3D感知的统一框架(Arxiv'22) [论文] [项目页面]
PolarFormer:具有极性变换器的多摄像头3D目标检测(Arxiv'22)[论文] [项目页面]

BEV下的融合

多模态融合:

PointPainting:3D目标检测的顺序融合(CVPR'19) [论文] [项目页面]
3D-CVF:使用跨视图空间特征融合生成联合相机和LiDAR特征用于3D目标检测(ECCV'20) [论文] [项目页面]
FUTR3D:用于3D检测的统一传感器融合框架(Arxiv'22) [论文] [项目页面]
MVP:多模态虚拟点3D检测(NIPS'21) [论文] [项目页面]
PointAugmenting:用于3D目标检测的跨模态增强(CVPR'21) [论文] [项目页面]
FusionPainting:用于3D目标检测的自适应注意力多模态融合(ITSC'21) [论文] [项目页面]
统一基于体素的表示和Transformer用于3D目标检测(Arxiv'21) [论文] [项目页面]
TransFusion:用于3D目标检测的强大LiDAR-相机融合与Transformer(CVPR'22) [论文] [项目页面]
AutoAlign:用于多模态3D目标检测的像素-实例特征聚合(IJCAI'22) [论文] [项目页面]
AutoAlignV2:用于动态多模态3D目标检测的可变形特征聚合(ECCV'22) [论文] [项目页面]
CenterFusion:基于中心的雷达和相机融合用于3D目标检测(WACV'21) [论文] [项目页面]
MSMDFusion:使用多尺度多深度种子融合LiDAR和相机用于3D目标检测(Arxiv'22) [论文][项目页面]

时序融合:

BEVDet4D:在多摄像头3D目标检测中利用时间线索(Arxiv'22) [论文] [项目页面]
Image2Map:将图像转换为地图(ICRA'22) [论文] [项目页面]
FIERY:从环绕单目相机预测鸟瞰图中的未来实例(ICCV'21) [论文] [项目页面]
Ego3RT:通过光线追踪学习自我3D表示(ECCV'22) [论文] [项目页面]
PolarFormer:具有极性变换器的多摄像头3D目标检测(Arxiv'22)[论文] [项目页面]
BEVStitch:使用车载摄像头理解道路语义的鸟瞰图(ICRA'22) [论文] [项目页面]
PETRv2:用于多摄像头图像3D感知的统一框架(Arxiv'22) [论文] [项目页面]
BEVFormer:通过时空Transformer从多摄像头图像学习鸟瞰图表示(ECCV'22) [论文] [项目页面]
UniFormer:用于鸟瞰图中时空表示的统一多视图融合Transformer(Arxiv'22) [论文]
DfM:利用运动深度的单目3D目标检测(ECCV'22) [论文] [项目页面]

多智能体融合:

CoBEVT:使用稀疏Transformer进行协作鸟瞰图语义分割(Arxiv'22) [论文]

实证经验

引用

如果您发现我们的工作对您的研究有用,请考虑引用:

@inproceedings{Ma2022VisionCentricBP,
  title={Vision-Centric BEV Perception: A Survey},
  author={Yuexin Ma and Tai Wang and Xuyang Bai and Huitong Yang and Yuenan Hou and Yaming Wang and Y. Qiao and Ruigang Yang and Dinesh Manocha and Xinge Zhu},
  year={2022}
}