Project Icon

ShapeLLM

革新3D理解的多模态大语言模型

ShapeLLM是首个面向智能体交互的3D多模态大语言模型,支持单视图彩色点云输入。该项目引入了3D问答基准3D MM-Vet,并改进了点云编码器ReCon++。ShapeLLM在多项3D理解任务中表现出色,为智能体与3D环境交互提供了新思路。

ShapeLLM:用于具身交互的通用3D物体理解

我们提出ShapeLLM,这是第一个为具身交互设计的3D多模态大语言模型,探索了基于3D点云和语言的通用3D物体理解。

Zekun Qi, Runpei Dong, Shaochen Zhang, Haoran Geng, Chunrui Han, Zheng Ge, Li YiKaisheng Ma

PWC PWC PWC PWC PWC PWC PWC PWC

项目主页 论文PDF Hugging Face 代码许可证 数据许可证

1. ShapeLLM是第一个为具身交互设计的3D多模态大语言模型。

2. ShapeLLM支持单视角彩色点云输入,可以轻松从RGBD相机获得。

3. 我们引入了一个强大的3D问答基准测试3D MM-Vet,包含各种变体,如单视角、噪声抖动等。

4. 我们扩展了强大的点编码器架构ReCon++,在一系列表示学习任务中实现了最先进的性能。

目录

安装

  1. 克隆此仓库并进入ShapeLLM文件夹
git clone https://github.com/qizekun/ShapeLLM.git
cd ShapeLLM
  1. 安装包
conda create -n shapellm python=3.10 -y
conda activate shapellm
pip install --upgrade pip  # 启用PEP 660支持
pip install -e .
  1. 安装训练所需的额外包
pip install -e ".[train]"
pip install flash-attn --no-build-isolation
  1. 安装PointNet++
pip install "git+https://github.com/erikwijmans/Pointnet2_PyTorch.git#egg=pointnet2_ops&subdirectory=pointnet2_ops_lib"

ShapeLLM

模型权重

请查看我们的模型库以获取所有公开的ShapeLLM检查点。

演示

命令行推理

使用命令行界面与点云进行交互。它还支持多个GPU、4位和8位量化推理。

python -m llava.serve.cli \
    --model-path qizekun/ShapeLLM_13B_general_v1.0 \
    --pts-file assets/instrument.npy

训练

与LLaVA一致,我们采用两阶段训练方法。在第一阶段,我们仅微调投影器以实现语义对齐。在第二阶段,我们使用指令跟随数据进行全面微调。 按照数据下载数据,将数据组织如下在./playground/data/shapellm/中,

│playground/data/shapellm/
├── cap3d_objaverse_785k.json
├── cap3d_objaverse_sft_45k.json
├── gapartnet_sft_27k_openai.json
├── gapartnet_pcs
│   ├── Box_100129_0_0.npy
│   └── ...
└── cap3d_pcs
    ├── 00000054c36d44a2a483bdbff31d8edf.pt
    └── ...

此外,ShapeLLM使用ReCon++的Large版本作为点编码器。 您需要下载ReCon++权重并将其保存到./checkpoints/recon/large.pth

│checkpoints/recon/
└── large.pth

1. 特征对齐阶段

sh scripts/pretrain.sh

2. 视觉指令微调阶段

sh scripts/finetune.sh

ShapeLLM-13B在8个A100(80G)上训练大约需要14小时。ShapeLLM-7B大约需要7小时。

3D MM-Vet零样本理解

评估3D MLLMs的综合能力和体化交互能力,运行脚本:

sh scripts/eval/mmvet.sh

使用GPT-4计算3D MM-Vet分数:

sh scripts/eval/eval_mmvet.sh

GApartNet视觉定位

评估ShapeLLM在GApartNet数据集上的性能,运行脚本:

sh scripts/eval/gapartnet_ref.sh

计算生成式3D视觉定位准确率:

sh scripts/eval/eval_gapartnet.sh

ReCon++

ReCon++模型权重

请查看我们的模型库以获取所有公开的ReCon++检查点。

预训练

按照数据下载并组织数据。 如果您在访问Huggingface时遇到问题,请使用export HF_ENDPOINT=https://hf-mirror.com

ReCon++采用两阶段预训练方法,首先以随机或因果形式进行生成式预训练,然后进行跨模态对比学习。值得注意的是,我们对迁移学习任务采用梯度停止策略,而对零样本任务不使用梯度停止。

sh ReConV2/scripts/pretrain_reconstruch.sh <exp_name>
sh ReConV2/scripts/pretrain_contrast.sh <exp_name> <path/to/stage1-pre-trained/model>

分类

模型版本OBJ_BGOBJ_ONLYPB_T50_RSMN-40 1kMN-40 8k
ACTSmall93.29%91.91%88.21%93.7%94.0%
ReConSmall95.35%93.80%91.26%94.5%94.7%
PointGPTBase95.8%95.2%91.9%94.4%94.6%
ReCon++Base98.62%96.21%93.34%94.6%94.8%
ReCon++Large98.80%97.59%95.25%94.8%95.0%

使用默认配置进行微调,运行脚本:

bash ReConV2/scripts/cls.sh <GPU> <exp_name> <path/to/pre-trained/model>

使用默认配置进行测试和投票,运行脚本:

bash ReConV2/scripts/test.sh <GPU> <exp_name> <path/to/best/fine-tuned/model>

小样本学习

模型版本5类10样本 (%)5类20样本 (%)10类10样本 (%)10类20样本 (%)
ACT小型96.8 ± 2.398.0 ± 1.493.3 ± 4.095.6 ± 2.8
ReCon小型97.3 ± 1.998.9 ± 1.293.3 ± 3.995.8 ± 3.0
PointGPT大型98.0 ± 1.999.0 ± 1.094.1 ± 3.396.1 ± 2.8
ReCon++大型98.0 ± 2.399.5 ± 0.894.5 ± 4.196.5 ± 3.0

使用默认配置进行小样本学习,运行以下脚本:

sh ReConV2/scripts/fewshot.sh <GPU> <实验名称> <预训练模型路径> <类别数> <样本数> <折数>

零样本学习

模型版本Objaverse-LVISModelNet40ScanObjectNN
OpenShape基础版46.8%84.4%52.2%
Uni3D基础版51.7%86.3%63.8%
Uni3D大型版53.1%86.3%58.2%
ReCon++基础版53.2%86.5%63.6%
ReCon++大型版53.7%87.3%65.4%

在预训练过程中,默认启用零样本评估。 使用默认配置进行零样本学习,运行以下脚本:

bash ReConV2/scripts/zeroshot.sh <GPU> <实验名称> <预训练模型路径>

3D MM-Vet

3D MM-Vet是一个精心制作的多层次3D问答基准,包含59个独特的3D模型和232个人工编写的问题和答案,内容丰富。

测试数据和脚本已上传至Hugging Face。您也可以在ShapeLLM的代码库中找到评估脚本。

此外,我们提出了3D MM-Vet-C,它包含三个变体:单视图、抖动和旋转。它们分别代表提取前视场视野的部分点云、对点云xyz添加高斯噪声,以及在x、y、z轴上进行随机旋转。

以下是每个变体的详细解释:

  • 单视图:此变体侧重于模型从单一视角理解3D对象的能力。为创建单视图变体,我们提取每个模型的前视点云。
  • 抖动:此变体测试模型对噪声的鲁棒性。为创建抖动变体,我们向点云xyz添加均值为零、方差为0.01的高斯噪声。
  • 旋转:此变体检验模型从不同视角理解3D场景的能力。为创建旋转变体,我们在x、y、z轴上随机应用30度的旋转。

我们相信3D MM-Vet和3D MM-Vet-C对3D问答社区来说是宝贵的资源。它们可用于评估现有模型的性能,并开发更擅长理解和推理3D对象的新模型。

可视化

我们使用PointVisualizaiton仓库来渲染精美的点云图像,包括指定颜色渲染和注意力分布渲染。

引用

如果您发现ShapeLLM或ReCon++对您的研究和应用有用,请使用以下BibTeX进行引用:

@article{qi2024shapellm,
  author = {Qi, Zekun and Dong, Runpei and Zhang, Shaochen and Geng, Haoran and Han, Chunrui and Ge, Zheng and Yi, Li and Ma, Kaisheng},
  title = {ShapeLLM: Universal 3D Object Understanding for Embodied Interaction},
  journal = {arXiv preprint arXiv:2402.17766},
  year = {2024}
}

以及密切相关的工作ReConACT

@inproceedings{qi2023recon,
  title={Contrast with Reconstruct: Contrastive 3D Representation Learning Guided by Generative Pretraining},
  author={Qi, Zekun and Dong, Runpei and Fan, Guofan and Ge, Zheng and Zhang, Xiangyu and Ma, Kaisheng and Yi, Li},
  booktitle={International Conference on Machine Learning (ICML) },
  url={https://openreview.net/forum?id=80IfYewOh1},
  year={2023}
}

@inproceedings{dong2023act,
  title={Autoencoders as Cross-Modal Teachers: Can Pretrained 2D Image Transformers Help 3D Representation Learning?},
  author={Runpei Dong and Zekun Qi and Linfeng Zhang and Junbo Zhang and Jianjian Sun and Zheng Ge and Li Yi and Kaisheng Ma},
  booktitle={The Eleventh International Conference on Learning Representations (ICLR) },
  url={https://openreview.net/forum?id=8Oun8ZUVe8N},
  year={2023}
}

致谢

本代码库基于LLaVAOpenShapeReConPointGPT构建。

相关工作

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号