视觉中心的BEV感知
视觉中心的BEV感知:一项调查
介绍
(1) 数据集
(2) 基于几何的PV2BEV
基于单应性的PV2BEV
公开论文:
- IPM:反透视映射简化了光流计算和障碍物检测 (生物控制学'1991) [论文]
- DSM:从街道级图像自动生成密集视觉语义地图 (IROS'12) [论文]
- MapV:学习将车辆映射到鸟瞰图 (ICIAP'17) [论文]
- BridgeGAN:生成对抗性前视图到鸟瞰图合成 (3DV'18) [论文][项目页面]
- VPOE:基于反透视映射图像的深度学习车辆位置和方向估计 (IV'19) [论文]
- 3D-LaneNet:端到端3D多车道检测 (ICCV'19) [论文]
- 正确(直角)视角:使用增强反透视映射改进道路场景理解 (IV'19) [论文]
- Cam2BEV:一种将多个车载摄像头图像转换为鸟瞰语义分割图像的Sim2Real深度学习方法 (ITSC'20) [论文] [项目页面]
- MonoLayout:从单幅图像中的模态场景布局 (WACA'20) [论文] [项目页面]
- MVNet:具有特征透视变换的多视图检测 (ECCV'20) [论文] [项目页面]
- OGMs:在扁平移动物体中驾驶:用于整体轨迹规划的单目相机鸟瞰占用网格 (WACA'21) [论文] [项目页面]
- TrafCam3D:通过单应性使用未校准交通摄像头的单目3D车辆检测 (IROS'21) [论文] [项目页面]
- SHOT:用于多视图行人检测的堆叠单应性变换 (ICCV'21) [论文]
- HomoLoss:用于单目3D物体检测的单应性损失 (CVPR'22) [论文]
时间顺序概览:
基于深度的PV2BEV
公开论文:
- OFT:用于单目3D物体检测的正交特征变换 (BMVC'19) [论文] [项目页面]
- CaDDN:用于单目3D物体检测的分类深度分布网络 (CVPR'21) [论文] [项目页面]
- DSGN:用于3D物体检测的深度立体几何网络 (CVPR'20) [论文] [项目页面]
- Lift, Splat, Shoot:通过隐式反投影到3D来编码任意相机装置的图像 (ECCV'20) [论文] [项目页面]
- PanopticSeg:使用单目前视图图像的鸟瞰全景分割 (RA-L'22) [论文] [项目页面]
- FIERY:从周围单目相机在鸟瞰视图中预测未来实例 (ICCV'21) [论文] [项目页面]
- LIGA-Stereo:学习用于基于立体视觉的3D检测器的LiDAR几何感知表示 (ICCV'21) [论文] [项目页面]
- ImVoxelNet:用于单目和多视图通用3D物体检测的图像到体素投影 (WACV'22) [论文] [项目页面]
- BEVDet:鸟瞰视图中的高性能多相机3D物体检测 (Arxiv'21) [论文] [项目页面]
- M^2BEV:使用统一鸟瞰表示的多相机联合3D检测和分割 (Arxiv'22) [论文] [项目页面]
- StretchBEV:在空间和时间上延伸未来实例预测 (ECCV'22) [论文] [项目页面]
- DfM:利用运动深度的单目3D物体检测 (ECCV'22) [论文] [项目页面]
- BEVDet4D:在多相机3D物体检测中利用时间线索 (Arxiv'22) [论文] [项目页面]
- BEVerse:以视觉为中心的自动驾驶统一感知和预测的鸟瞰视图 (Arxiv'22) [论文] [项目页面]
- MV-FCOS3D++:使用预训练单目骨干网络的多视图仅相机4D物体检测 (Arxiv'22) [论文] [项目页面]
- 将人放在合适的位置:单目回归3D人物深度 (CVPR'22) [代码] [项目页面] [论文] [视频] [RH数据集]
时间顺序概览:
基准测试结果:
(3) 基于网络的PV2BEV
基于MLP的PV2BEV
公开论文:
- VED: 使用卷积变分编码器-解码器网络的单目语义占用栅格映射 (RA-L'19) [论文] [项目页面]
- VPN: 用于感知周围环境的跨视图语义分割 (IROS'20) [论文] [项目页面]
- FishingNet: 网格中语义热图的未来推理 (Arxiv'20) [论文]
- PON: 使用金字塔占用网络从图像预测语义地图表示 (CVPR'20) [论文] [项目页面]
- STA-ST: 在鸟瞰图车辆估计中实现时空聚合 (ICRA'21) [论文]
- HDMapNet: 在线高清地图构建和评估框架 (ICRA'22) [论文] [项目页面]
- 通过跨视图转换有效地投射你的视角: 单目道路场景布局估计 (CVPR'21) [论文] [项目页面]
- HFT: 通过混合特征变换提升透视表示 (Arxiv'22) [论文] [项目页面]
时间顺序概览:
基准结果:
基于Transformer的PV2BEV
公开论文:
- STSU: 从车载图像结构化鸟瞰交通场景理解 (ICCV'21) [论文] [项目页面]
- Image2Map: 将图像转换为地图 (ICRA'22) [论文] [项目页面]
- DETR3D: 通过3D到2D查询从多视图图像进行3D目标检测 (CoRL'21) [论文] [项目页面]
- TopologyPL: 从单个车载相机图像保持拓扑的局部道路网络估计 (CVPR'22) [论文] [项目页面]
- PETR: 多视图3D目标检测的位置嵌入变换 (ECCV'22) [论文] [项目页面]
- BEVSegFormer: 从任意相机配置的鸟瞰语义分割 (Arxiv'22) [论文]
- PersFormer: 3D车道线检测的新基准 (ECCV'22) [论文] [项目页面]
- MonoDTR: 具有深度感知Transformer的单目3D目标检测 (CVPR'22) [页面] [项目页面]
- MonoDETR: 用于单目3D目标检测的深度引导Transformer (Arxiv'22) [论文] [项目页面]
- BEVFormer: 通过时空Transformer从多相机图像学习鸟瞰表示 (ECCV'22) [论文] [项目页面]
- GitNet: 基于几何先验的鸟瞰分割变换 (ECCV'22) [论文]
- Graph-DETR3D: 重新思考多视图3D目标检测中的重叠区域 (MM'22) [论文]
- CVT: 用于实时地图视图语义分割的跨视图Transformers (CVPR'22) [论文] [项目页面]
- PETRv2: 多相机图像3D感知的统一框架 (Arxiv'22) [论文] [项目页面]
- Ego3RT: 作为光线追踪学习自我3D表示 (ECCV'22) [论文] [项目页面]
- GKT: 通过几何引导核Transformer进行高效且鲁棒的2D到BEV表示学习 (Arxiv'22) [论文] [项目页面]
- PolarDETR: 基于视觉的环视3D检测极坐标参数化 (Arxiv'22) [论文] [项目页面]
- LaRa: 用于多相机鸟瞰语义分割的隐变量和射线 (Arxiv'22) [论文]
- SRCN3D: 稀疏R-CNN 3D环视相机3D目标检测和跟踪用于自动驾驶 (Arxiv'22) [论文] [项目页面]
- PolarFormer: 具有极坐标Transformers的多相机3D目标检测 (Arxiv'22)[论文] [项目页面]
- ORA3D: 重叠区域感知多视图3D目标检测 (Arxiv'22) [论文]
- CoBEVT: 使用稀疏Transformers的协作鸟瞰语义分割 (Arxiv'22) [论文]
时间顺序概览:
基准结果:
(4) 扩展
BEV下的多任务学习
- FIERY:从环绕单目相机预测鸟瞰图中的未来实例(ICCV'21) [论文] [项目页面]
- StretchBEV:在空间和时间上拉伸未来实例预测(ECCV'22) [论文] [项目页面]
- BEVerse:以视觉为中心的自动驾驶统一感知和预测的鸟瞰图(Arxiv'22) [论文] [项目页面]
- M^2BEV:具有统一鸟瞰图表示的多摄像头联合3D检测和分割(Arxiv'22) [论文] [项目页面]
- STSU:从车载图像结构化鸟瞰交通场景理解(ICCV'21) [论文] [项目页面]
- BEVFormer:通过时空Transformer从多摄像头图像学习鸟瞰图表示(ECCV'22) [论文] [项目页面]
- Ego3RT:通过光线追踪学习自我3D表示(ECCV'22) [论文] [项目页面]
- PETRv2:用于多摄像头图像3D感知的统一框架(Arxiv'22) [论文] [项目页面]
- PolarFormer:具有极性变换器的多摄像头3D目标检测(Arxiv'22)[论文] [项目页面]
BEV下的融合
多模态融合:
- PointPainting:3D目标检测的顺序融合(CVPR'19) [论文] [项目页面]
- 3D-CVF:使用跨视图空间特征融合生成联合相机和LiDAR特征用于3D目标检测(ECCV'20) [论文] [项目页面]
- FUTR3D:用于3D检测的统一传感器融合框架(Arxiv'22) [论文] [项目页面]
- MVP:多模态虚拟点3D检测(NIPS'21) [论文] [项目页面]
- PointAugmenting:用于3D目标检测的跨模态增强(CVPR'21) [论文] [项目页面]
- FusionPainting:用于3D目标检测的自适应注意力多模态融合(ITSC'21) [论文] [项目页面]
- 统一基于体素的表示和Transformer用于3D目标检测(Arxiv'21) [论文] [项目页面]
- TransFusion:用于3D目标检测的强大LiDAR-相机融合与Transformer(CVPR'22) [论文] [项目页面]
- AutoAlign:用于多模态3D目标检测的像素-实例特征聚合(IJCAI'22) [论文] [项目页面]
- AutoAlignV2:用于动态多模态3D目标检测的可变形特征聚合(ECCV'22) [论文] [项目页面]
- CenterFusion:基于中心的雷达和相机融合用于3D目标检测(WACV'21) [论文] [项目页面]
- MSMDFusion:使用多尺度多深度种子融合LiDAR和相机用于3D目标检测(Arxiv'22) [论文][项目页面]
时序融合:
- BEVDet4D:在多摄像头3D目标检测中利用时间线索(Arxiv'22) [论文] [项目页面]
- Image2Map:将图像转换为地图(ICRA'22) [论文] [项目页面]
- FIERY:从环绕单目相机预测鸟瞰图中的未来实例(ICCV'21) [论文] [项目页面]
- Ego3RT:通过光线追踪学习自我3D表示(ECCV'22) [论文] [项目页面]
- PolarFormer:具有极性变换器的多摄像头3D目标检测(Arxiv'22)[论文] [项目页面]
- BEVStitch:使用车载摄像头理解道路语义的鸟瞰图(ICRA'22) [论文] [项目页面]
- PETRv2:用于多摄像头图像3D感知的统一框架(Arxiv'22) [论文] [项目页面]
- BEVFormer:通过时空Transformer从多摄像头图像学习鸟瞰图表示(ECCV'22) [论文] [项目页面]
- UniFormer:用于鸟瞰图中时空表示的统一多视图融合Transformer(Arxiv'22) [论文]
- DfM:利用运动深度的单目3D目标检测(ECCV'22) [论文] [项目页面]
多智能体融合:
- CoBEVT:使用稀疏Transformer进行协作鸟瞰图语义分割(Arxiv'22) [论文]
实证经验
引用
如果您发现我们的工作对您的研究有用,请考虑引用:
@inproceedings{Ma2022VisionCentricBP,
title={Vision-Centric BEV Perception: A Survey},
author={Yuexin Ma and Tai Wang and Xuyang Bai and Huitong Yang and Yuenan Hou and Yaming Wang and Y. Qiao and Ruigang Yang and Dinesh Manocha and Xinge Zhu},
year={2022}
}
贡献
欢迎提交拉取请求添加新论文或相关项目页面。