Project Icon

Segment-Any-Point-Cloud

视觉基础模型驱动的通用点云序列分割框架

Seal是一种自监督学习框架,通过利用视觉基础模型的知识来分割多样化的点云序列。该框架在表示学习阶段强调空间和时间一致性,实现了高效的跨模态知识迁移。Seal无需依赖2D或3D标注,直接从视觉模型中提取知识,展现出优秀的可扩展性、一致性和泛化能力。它可应用于各类点云数据集,包括真实与合成、高低分辨率、大小规模以及干净和受损数据。

English | 简体中文

通过蒸馏视觉基础模型来分割任意点云序列

刘友全1,*    孔令东1,2,*    岑俊3    陈润楠4    张文蔚1,5
潘亮5    陈恺1    刘子畏5
1上海人工智能实验室    2新加坡国立大学    3香港科技大学    4香港大学    5南洋理工大学S-Lab

Seal :seal:

Seal是一个多功能的自监督学习框架,能够通过利用现成的视觉基础模型(VFMs)知识,并在表示学习阶段鼓励这些知识的空间和时间一致性,来分割任何汽车点云。

:sparkles: 亮点

  • :rocket: 可扩展性: Seal直接将VFMs的知识蒸馏到点云中,在预训练过程中无需2D或3D的注释。
  • :balance_scale: 一致性: Seal在相机到LiDAR和点到分割阶段都强制执行空间和时间关系,促进跨模态表示学习。
  • :rainbow: 泛化性: Seal能以现成的方式将知识转移到涉及各种点云的下游任务中,包括真实/合成、低/高分辨率、大/小规模和干净/受损的数据集。

:oncoming_automobile: 2D-3D对应关系

:movie_camera: 视频演示

演示1演示2演示3
链接 :arrow_heading_up:链接 :arrow_heading_up:链接 :arrow_heading_up:

更新

  • [2023.12] - 我们正在ICRA 2024上举办The RoboDrive Challenge。:blue_car:
  • [2023.09] - Seal被选为NeurIPS 2023的:sparkles:聚焦论文:sparkles:。
  • [2023.09] - Seal被接收到NeurIPS 2023!:tada:
  • [2023.07] - 我们发布了使用SLICSAMSEEM生成语义超像素和超点的代码。更多VFMs正在开发中!
  • [2023.06] - 我们的论文已在arXiv上发布,点击这里查看。代码将稍后发布!

大纲

安装

请参阅INSTALL.md了解安装详情。

数据准备

请参阅DATA_PREPARE.md了解准备这些数据集的详细信息。

超点生成

原始点云语义超点真实标注

请参阅SUPERPOINT.md了解使用视觉基础模型生成语义超像素和超点的详细信息。

入门指南

请参阅GET_STARTED.md了解如何使用此代码库的更多信息。

主要结果

:unicorn: 框架概述

Seal :seal: 框架概览。我们为每个时间戳 t 的{LiDAR,相机}对和时间戳 t + n 的另一个 LiDAR 帧生成语义超像素和超点,通过 VFMs 实现。然后形成两个相关目标,包括配对 LiDAR 和相机特征之间的空间对比学习以及不同时间戳段之间的时间一致性正则化

:car: 余弦相似度

在我们的 Seal :seal: 框架中,查询点(红点)与使用 SLIC 和不同 VFMs 学习的特征之间的余弦相似度。从上到下示例中查询的语义类别分别是:"汽车"、"人造物"和"卡车"。颜色从紫色到黄色表示低到高的相似度分数。

:blue_car: 基准测试

方法nuScenesKITTIWaymoSynth4D
LP1%5%10%25%全部1%1%1%
随机8.1030.3047.8456.1565.4874.6639.5039.4120.22
PointContrast21.9032.50----41.10--
DepthContrast22.1031.70----41.50--
PPKT35.9037.8053.7460.2567.1474.5244.0047.6061.10
SLidR38.8038.3052.4959.8466.9174.7944.6047.1263.10
ST-SLidR40.4840.7554.6960.7567.7075.1444.7244.93-
Seal :seal:44.9545.8455.6462.9768.4175.6046.6349.3464.50

:bus: 线性探测

我们的 Seal :seal: 框架在 nuScenes 上预训练(不使用真实标签)并通过冻结骨干网络和线性分类头进行线性探测的定性结果。为突出差异,正确/错误的预测分别以灰色/红色显示。

:articulated_lorry: 下游泛化

方法ScribbleKITTIRELLIS-3DSemanticPOSSSemanticSTFSynLiDARDAPS-3D
1%10%1%10%半数全部半数全部1%10%半数全部
随机23.8147.6038.4653.6046.2654.1248.0348.1519.8944.7474.3279.38
PPKT36.5051.6749.7154.3350.1856.0050.9254.6937.5746.4878.9084.00
SLidR39.6050.4549.7554.5751.5655.3652.0154.3542.0547.8481.0085.40
Seal :seal:40.6452.7751.0955.0353.2656.8953.4655.3643.5849.2681.8885.90

:truck: 鲁棒性测试

初始化骨干网络mCEmRR湿运动光束交叉回声传感器
随机PolarNet115.0976.3458.2369.9164.8244.6061.9140.7753.6442.01
随机CENet112.7976.0467.0169.8761.6458.3149.9760.8953.3124.78
随机WaffleIron106.7372.7856.0773.9349.5959.4665.1933.1261.5144.01
随机Cylinder3D105.5678.0861.4271.0258.4056.0264.1545.3659.9743.03
随机SPVCNN106.6574.7059.0172.4641.0858.3665.3636.8362.2949.21
随机MinkUNet112.2072.5762.9670.6555.4851.7162.0131.5659.6439.41
PPKTMinkUNet105.6476.0664.0172.1859.0857.1763.8836.3460.5939.57
SLidRMinkUNet106.0875.9965.4172.3156.0156.0762.8741.9461.1638.90
Seal :seal:MinkUNet92.6383.0872.6674.3166.2266.1465.9657.4459.8739.85

:tractor: 定性评估

Seal :seal: 和先前方法在 nuScenes 上预训练(不使用真实标签)并用 1% 标记数据微调后的定性结果。为突出差异,正确/错误的预测分别用灰色/红色表示。

待办事项

  • 初始发布。:rocket:
  • 添加许可证。详情请参见此处
  • 添加视频演示 :movie_camera:
  • 添加安装详情。
  • 添加数据准备详情。
  • 支持语义超像素生成。
  • 支持语义超点生成。
  • 添加评估详情。
  • 添加训练详情。

引用

如果您觉得这项工作有帮助,请考虑引用我们的论文:

@inproceedings{liu2023segment,
  title = {通过蒸馏视觉基础模型来分割任意点云序列},
  author = {刘友全 and 孔令东 and 岑骏 and 陈润楠 and 张文伟 and 潘亮 and 陈凯 and 刘子为},
  booktitle = {神经信息处理系统进展},
  year = {2023},
}
@misc{liu2023segment_any_point_cloud,
  title = {分割任意点云代码库},
  author = {刘友全 and 孔令东 and 岑骏 and 陈润楠 and 张文伟 and 潘亮 and 陈凯 and 刘子为},
  howpublished = {\url{https://github.com/youquanl/Segment-Any-Point-Cloud}},
  year = {2023},
}

许可证

知识共享许可协议
本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。

致谢

本工作基于MMDetection3D代码库开发。


MMDetection3D是一个基于PyTorch的开源目标检测工具箱,面向下一代通用3D检测平台。它是由MMLab开发的OpenMMLab项目的一部分。

本代码库的部分内容改编自SLidRSegment AnythingX-DecoderOpenSeeDSegment Everything Everywhere All at OnceLaserMixRobo3D

:heart: 我们感谢上述开源仓库的卓越贡献!

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号