Project Icon

3D-deformable-attention

3D可变形注意力技术提升自动驾驶物体检测精度

3D-deformable-attention项目提出了3D可变形注意力(DFA3D)操作符,用于2D到3D特征提升。该方法首先利用深度估计将2D特征扩展到3D空间,再通过DFA3D聚合3D特征。这种方法缓解了深度歧义问题,并支持逐层特征细化。在多个基准测试中,DFA3D平均提高1.41 mAP,高质量深度信息下最高提升15.1 mAP。研究结果显示DFA3D在自动驾驶3D目标检测等任务中具有较大潜力。

3D 可变形注意力 (DFA3D)

作者:Hongyang Li*, Hao Zhang*, Zhaoyang Zeng, Shilong Liu, Feng Li, Tianhe Ren, 和 Lei Zhang :email:

[论文] [引用]

这个仓库是论文"DFA3D: 用于2D到3D特征提升的3D可变形注意力"的官方实现。

:fire: 新闻

[2023/7/15] 我们的论文被ICCV2023接收。

[2023/8/24] 我们开源了3D可变形注意力(DFA3D)以及启用DFA3D的BEVFormer。

:spiral_calendar: 待办事项

  • 发布3D可变形注意力。
  • 发布BEVFormer-DFA3D-PredDepth(-base & -small)和BEVFormer-DFA3D-GTDepth。
  • 添加更多注释。
  • 格式化并发布"准备深度图"的代码。
  • 发布3D注意力可视化工具。

:scroll: 摘要

在本文中,我们提出了一种新的算子,称为3D可变形注意力(DFA3D),用于2D到3D特征提升,它将多视图2D图像特征转换到统一的3D空间用于3D目标检测。 现有的特征提升方法,如基于Lift-Splat和基于2D注意力的方法,要么使用估计的深度获取伪激光雷达特征然后将其分散到3D空间,这是一个没有特征细化的单次操作,要么忽略深度并通过2D注意力机制提升特征,这实现了更精细的语义但存在深度模糊问题。 相比之下,我们基于DFA3D的方法首先利用估计的深度将每个视图的2D特征图扩展到3D,然后利用DFA3D从扩展的3D特征图中聚合特征。借助DFA3D,深度模糊问题可以从根本上得到有效缓解,并且由于采用了类Transformer的架构,提升的特征可以逐层渐进细化。此外,我们提出了DFA3D的数学等价实现,可以显著提高其内存效率和计算速度。我们将DFA3D集成到几种使用基于2D注意力特征提升的方法中,只需对代码进行少量修改,并在nuScenes数据集上进行评估。实验结果显示平均提升了+1.41 mAP,当有高质量深度信息可用时,最高可提升+15.1 mAP,展示了DFA3D的优越性、适用性和巨大潜力。

:hammer_and_wrench: 方法

特征提升方法的比较。

改进。

我们的DFA3D为几种方法带来了一致的改进,包括两项同期工作(DA-BEVSparse4D)。

提高深度质量将带来进一步的收益(最高可达15.1% mAP)。

如何将基于2D注意力的特征提升转换为我们的基于3D可变形注意力的方法。

这里,我们以2D可变形注意力为例,只需对代码进行少量修改。更多详情,请参考我们在模型库中提供的示例。

更多详情,请参考我们提供的启用DFA3D的BEVFormer。

:rocket: 模型库

我们分别用DFA2D和DFA3D表示2D可变形注意力和我们的3D可变形注意力。

方法特征提升mAP / NDS配置检查点
0BEVFormer-base基于DFA2D41.6 / 51.7配置模型
基于DFA3D43.2 / 53.2
+1.6 / +1.5
配置模型
1BEVFormer-small基于DFA2D37.0 / 47.9配置模型
基于DFA3D40.3 / 50.9
+3.3 / +3.0
配置模型
2BEVFormer-base-GTDepth基于DFA2D- / ---
基于DFA3D57.6 / 63.6
+16.0 / +11.9
配置模型

:gear: 使用方法

我们基于mmcv开发了3D可变形注意力。我们在python=3.8.13,pytorch=1.9.1,cuda=11.1环境下测试了我们的方法。其他版本可能也适用。

安装

  1. 克隆此仓库。
git clone https://github.com/IDEA-Research/3D-deformable-attention.git
cd 3D-deformable-attention/
  1. 安装Pytorch和torchvision。

按照https://pytorch.org/get-started/locally/的说明操作。

# 示例:
conda install -c pytorch pytorch torchvision
  1. 编译并安装3D-Deformable-Attention。
cd DFA3D
bash setup.sh 0
# 检查是否正确安装。
cd ../
python unittest_DFA3D.py

运行

准备数据集

按照BEVFormer中的说明构建数据集。并下载我们准备的深度图(通过将单次扫描的激光雷达点投影到多视图图像上获得),并在以下位置解压:

./data/nuscenes/depth_gt/

评估我们预训练的模型

下载模型库中提供的检查点。

cd BEVFormer_DFA3D
bash tools/dist_test.sh 配置文件路径 检查点路径 1
# 示例: 
bash tools/dist_test.sh ./projects/configs/bevformer/bevformer_base_DFA3D_GTDpt.py ./ckpt/bevformer_base_DFA3D_gtdpt.pth 1

训练模型

bash ./tools/dist_train.sh 配置文件路径 8
# 示例
bash ./tools/dist_train.sh ./projects/configs/bevformer/bevformer_base_DFA3D_GTDpt.py 8

:black_nib: 引用

@inproceedings{
  title={DFA3D: 3D Deformable Attention For 2D-to-3D Feature Lifting},
  author={Hongyang Li and Hao Zhang and Zhaoyang Zeng and Shilong Liu and Feng Li and Tianhe Ren and Lei Zhang},
  booktitle={Proceedings of the IEEE/CVF international conference on computer vision},
  year={2023}
}
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号