Fast-BEV：快速而强大的鸟瞰视角感知基线

Fast-BEV: 快速而强大的鸟瞰视角感知基线

Fast-BEV是一种面向自动驾驶的快速而强大的鸟瞰视角(BEV)感知框架。近年来,基于鸟瞰视角表示的感知任务越来越受到关注,BEV表示被认为是下一代自动驾驶感知的基础。然而,现有的大多数BEV解决方案要么需要大量计算资源来执行车载推理,要么性能较为一般。Fast-BEV提出了一种简单而有效的框架,能够在车载芯片上执行更快速的BEV感知。

主要创新点

Fast-BEV包含以下几个关键创新:

轻量级部署友好的视图变换模块,可以快速将2D图像特征转换到3D体素空间。
多尺度图像编码器,利用多尺度信息提升性能。
高效的BEV编码器,专门设计用于加速车载推理。
强大的数据增强策略,同时用于图像和BEV空间,避免过拟合。
多帧特征融合机制,利用时序信息。

通过这些创新设计,Fast-BEV在效率和性能上都取得了显著提升。

实验结果

在nuScenes验证集上,Fast-BEV的R50模型可以达到52.6 FPS的速度和47.3% NDS的性能,超过了BEVDepth-R50(41.3 FPS, 47.5% NDS)和BEVDet4D-R50(30.2 FPS, 45.7% NDS)。Fast-BEV的最大模型(R101@900x1600)在nuScenes验证集上取得了53.5% NDS的竞争性结果。

Fast-BEV性能对比图

框架结构

Fast-BEV的整体框架结构如下图所示:

Fast-BEV框架结构图

主要包括多尺度图像编码器、视图变换模块、BEV编码器和检测头等部分。通过这种设计,Fast-BEV可以高效地将多视图2D图像特征转换为3D BEV特征,并进行目标检测等任务。

使用方法

Fast-BEV的安装和使用非常简单,主要包括以下几个步骤:

安装依赖:
- CUDA >= 9.2
- GCC >= 5.4
- Python >= 3.6
- PyTorch >= 1.8.1
- MMCV-full == 1.4.0
- MMDetection == 2.14.0
- MMSegmentation == 0.14.1
准备数据集: 按照指定目录结构准备nuScenes数据集。
下载预训练模型: 提供了R18、R34和R50的Cascade Mask R-CNN预训练模型。
训练和评估: 使用提供的脚本进行模型训练和评估。
推理部署: 可以参考CUDA-FastBEV项目,使用CUDA和TensorRT进行更快速的推理。