DSVT项目介绍
项目概述
DSVT(Dynamic Sparse Voxel Transformer)是一个面向大规模点云高效且易于部署的3D变换器骨干网络。它主要用于室外三维目标检测,采用动态稀疏体素变换器配合旋转集分区策略,在计算性能和检测准确性方面均取得了卓越成效。通过将窗口内的局部区域按其稀疏性划分,并以全并行的方式计算所有区域的特征,DSVT在丰富的三维数据集上展示了极高的性能。
项目亮点
- 部署友好和实时推断速度: 经过NVIDIA TensorRT部署后,DSVT能以每秒27帧的速度进行实时运行。
- 优秀的性能表现: 在多种数据集(如Waymo, Nuscenes)上,DSVT在3D对象检测及BEV(Bird's Eye View)图像分割任务中均表现突出。
- 强大的变换器网络: 与传统稀疏卷积网络相比,DSVT的变换器网络具备更大的感受野,在推理速度和检测准确性方面都有显著提升。
主要成果
DSVT在Waymo Open Dataset上实现了单帧以及多帧设置下的领先性能。在单帧基础上,其L1和L2评估指标分别达到了78.2和72.1。在多帧设置下,DSVT分别在2、3、4帧检测中获得了74.6、75.0和75.6的L2分数。此外,DSVT在NuScenes数据集上的3D对象检测与BEV映射分割任务中,也取得了显著的优势。
未来研究方向
- 输入层优化: 目前DSVT的输入层已经进行了高效的体素预分区,但仍然有加速空间,可以尝试通过编写CUDA代码或全局缓存位置嵌入以提高速度。
- 动态分区策略继承: 由于不同阶段间分区结果无法继承,可以探索不同的阶段继承策略以加速真实3D场景(如室内场景)的推理时间。
使用指南
- 安装: 用户需根据项目提供的INSTALL.md指南进行环境配置。
- 数据准备: 使用与OpenPCDet一致的数据生成过程。
- 训练与测试: 提供了相应的多GPU训练和测试脚本,用户根据资源情况可以调整批次大小及学习率。
结语
DSVT不仅在学术上取得了优异的成绩,凭借其高效设计,在实际部署中也展现了巨大的应用潜力。团队欢迎有兴趣的研究人员参与到3D视觉数据处理网络的设计中,共同促进其在行业中的广泛应用。