Project Icon

OpenShape_code

革新3D形状表示方法 实现开放世界理解

该项目开发了新型3D形状表示方法,通过大规模训练实现开放世界理解。这一技术在零样本3D形状分类、检索和语义理解任务中表现优异,支持多模态交互并能进行点云描述和图像生成。提供的在线演示、预训练模型和训练代码为3D视觉研究与应用拓展了新方向。

OpenShape: 扩展3D形状表示以实现开放世界理解

[项目主页] [论文] [在线演示]

[新闻] OpenShape已被NeurIPS 2023接收。新奥尔良见!

[新闻] 我们已发布模型检查点、训练代码和训练数据!

[新闻] 在线演示已上线!感谢HuggingFace🤗赞助此演示!

"OpenShape: 扩展3D形状表示以实现开放世界理解"的官方代码。

头像 左图:在Objaverse-LVIS(1,156个类别)和ModelNet40数据集(40个常见类别)上的零样本3D形状分类。右图:我们的形状表示编码了广泛的语义和视觉概念。我们输入两个3D形状,并使用它们的形状嵌入来检索嵌入同时最接近两个输入的前三个形状。

在线演示

探索在线演示,目前支持:(a) 3D形状分类(LVIS类别和用户上传的文本),(b) 3D形状检索(基于文本、图像和3D点云),(c) 点云描述生成,以及(d) 基于点云的图像生成。

演示使用streamlit构建。如遇"连接错误",请尝试清除浏览器缓存或使用隐身模式。

演示代码可在此处此处找到。支持库(README)也可作为PointBERT骨干网络模型的推理库。

检查点

模型训练数据CLIP版本骨干网络Objaverse-LVIS零样本Top1(Top5)ModelNet40零样本Top1(Top5)重力轴备注
pointbert-vitg14-rgb四个数据集OpenCLIP ViT-bigG-14PointBERT46.8 (77.0)84.4 (98.0)z轴
pointbert-no-lvis四个数据集(无LVIS)OpenCLIP ViT-bigG-14PointBERT39.1 (68.9)85.3 (97.4)z轴
pointbert-shapenet-only仅ShapeNetOpenCLIP ViT-bigG-14PointBERT10.8 (25.0)70.3 (91.3)z轴
spconv-all四个数据集OpenCLIP ViT-bigG-14SparseConv42.7 (72.8)83.7 (98.4)z轴
spconv-all-no-lvis四个数据集(无LVIS)OpenCLIP ViT-bigG-14SparseConv38.1 (68.2)84.0 (97.3)z轴
spconv-shapenet-only仅ShapeNetOpenCLIP ViT-bigG-14SparseConv12.1 (27.1)74.1 (89.5)z轴
pointbert-vitl14-rgbObjaverse(无LVIS)CLIP ViT-L/14PointBERT不适用不适用y轴用于图像生成演示
pointbert-vitb32-rgbObjaverseCLIP ViT-B/32PointBERT不适用不适用y轴用于点云描述生成演示

安装

如果您想在本地运行推理或(和)训练,可能需要安装以下依赖项。

  1. 创建conda环境并通过以下命令或官方指南安装pytorchMinkowskiEngineDGL
conda create -n OpenShape python=3.9
conda activate OpenShape
conda install pytorch==1.12.1 torchvision==0.13.1 torchaudio==0.12.1 cudatoolkit=11.3 -c pytorch
pip install -U git+https://github.com/NVIDIA/MinkowskiEngine
conda install -c dglteam/label/cu113 dgl
  1. 安装以下软件包:
pip install huggingface_hub wandb omegaconf torch_redstone einops tqdm open3d 

推理

尝试以下示例代码,计算3D点云的OpenShape嵌入,并计算3D-文本和3D-图像相似度。

python3 src/example.py

请对输入点云进行归一化,并确保点云的重力轴与预训练模型一致。

训练

  1. 处理后的训练和评估数据可在此处找到。使用以下命令下载并解压数据:
python3 download_data.py

总数据大小约为205G,文件将并行下载和解压。如果您不需要在Objaverse数据集上进行训练和评估,可以跳过该部分(约185G)。

  1. 使用以下命令运行训练:
wandb login {YOUR_WANDB_ID}
python3 src/main.py dataset.train_batch_size=20 --trial_name bs_20

默认配置可在src/configs/train.yml中找到,适用于单个A100 GPU训练。您也可以通过传递参数来更改设置。以下是论文中使用的主要实验的一些示例:

python3 src/main.py --trial_name spconv_all
python3 src/main.py --trial_name spconv_no_lvis dataset.train_split=meta_data/split/train_no_lvis.json 
python3 src/main.py --trial_name spconv_shapenet_only dataset.train_split=meta_data/split/ablation/train_shapenet_only.json 
python3 src/main.py --trial_name pointbert_all model.name=PointBERT model.scaling=4 model.use_dense=True training.lr=0.0005 training.lr_decay_rate=0.967 
python3 src/main.py --trial_name pointbert_no_lvis model.name=PointBERT model.scaling=4 model.use_dense=True training.lr=0.0005 training.lr_decay_rate=0.967 dataset.train_split=meta_data/split/train_no_lvis.json 
python3 src/main.py --trial_name pointbert_shapenet_only model.name=PointBERT model.scaling=4 model.use_dense=True training.lr=0.0005 training.lr_decay_rate=0.967 dataset.train_split=meta_data/split/ablation/train_shapenet_only.json 

你可以在wandb页面上跟踪训练和评估(Objaverse-LVIS和ModelNet40)的曲线。

数据

所有数据可以在这里找到。使用python3 download_data.py下载它们。

训练数据

训练数据包括Objaverse/000-xxx.tar.gzShapeNet.tar.gz3D-FUTURE.tar.gzABO.tar.gz。解压后,你将得到每个形状的一个numpy文件,其中包括:

  • dataset:str,形状的数据集。
  • group:str,形状的组别。
  • id:str,形状的ID。
  • xyz:numpy数组(10000 x 3, [-1,1]),形状的点云。
  • rgb:numpy数组(10000 x 3, [0, 1]),点云的颜色。
  • image_feat:numpy数组,12张渲染图像的图像特征。
  • thumbnail_feat:numpy数组,缩略图的图像特征。
  • text:字符串列表,形状的原始文本,使用数据集的元数据构建。
  • text_feat:字典列表,text的文本特征。"original"表示没有提示工程的原始文本特征。"prompt_avg"表示使用基于模板的提示工程的平均文本特征。
  • blip_caption:str,为缩略图或渲染图像生成的BLIP描述。
  • blip_caption_feat:dict,blip_caption的文本特征。
  • msft_caption:str,为缩略图或渲染图像生成的Microsoft Azure描述。
  • msft_caption_feat:dict,msft_caption的文本特征。
  • retrieval_text:str列表,为缩略图或渲染图像检索的文本。
  • retrieval_text_feat:字典列表,retrieval_text的文本特征。

所有图像和文本特征都是使用OpenCLIP (ViT-bigG-14, laion2b_s39b_b160k)提取的。

元数据

meta_data.zip包括用于训练和评估(在Objaverse-LVIS、ModelNet40和ScanObjectNN上)的元数据:

  • split/:训练形状列表。train_all.json表示使用四个数据集(Objaverse、ShapeNet、ABO和3D-FUTURE)进行训练。train_no_lvis.json表示使用四个数据集但排除Objaverse-LVIS形状进行训练。ablation/train_shapenet_only.json表示仅使用ShapeNet形状进行训练。
  • gpt4_filtering.json:使用GPT4生成的Objaverse原始文本的过滤结果。
  • point_feat_knn.npy:使用形状特征计算的KNN索引,用于训练期间的困难挖掘。
  • modelnet40/test_split.json:ModelNet40测试形状列表。
  • modelnet40/test_pc.npy:ModelNet40测试形状的点云,10000 x 3。
  • modelnet40/cat_name_pt_feat.npy:ModelNet40类别名称的文本特征,使用了提示工程。
  • lvis_cat_name_pt_feat.npy:Objeverse-LVIS类别名称的文本特征,使用了提示工程。
  • scanobjectnn/xyz_label.npy:ScanObjectNN测试形状的点云和标签。
  • scanobjectnn/cat_name_pt_feat.npy:ScanObjectNN类别名称的文本特征,使用了提示工程。 所有文本特征都是使用OpenCLIP (ViT-bigG-14, laion2b_s39b_b160k)提取的。

引用

如果您发现我们的代码有帮助,请引用我们的论文:

@misc{liu2023openshape,
      title={OpenShape: Scaling Up 3D Shape Representation Towards Open-World Understanding}, 
      author={Minghua Liu and Ruoxi Shi and Kaiming Kuang and Yinhao Zhu and Xuanlin Li and Shizhong Han and Hong Cai and Fatih Porikli and Hao Su},
      year={2023},
      eprint={2305.10764},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

白日梦AI

白日梦AI提供专注于AI视频生成的多样化功能,包括文生视频、动态画面和形象生成等,帮助用户快速上手,创造专业级内容。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

讯飞绘镜

讯飞绘镜是一个支持从创意到完整视频创作的智能平台,用户可以快速生成视频素材并创作独特的音乐视频和故事。平台提供多样化的主题和精选作品,帮助用户探索创意灵感。

Project Cover

讯飞文书

讯飞文书依托讯飞星火大模型,为文书写作者提供从素材筹备到稿件撰写及审稿的全程支持。通过录音智记和以稿写稿等功能,满足事务性工作的高频需求,帮助撰稿人节省精力,提高效率,优化工作与生活。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号