Project Icon

EmbodiedScan

全面多模态3D感知套件,提高具身AI的理解能力

EmbodiedScan及其系列如MMScan是专为多模态3D感知设计的开放数据集与基准,用于深入理解第一人称3D场景。包含超过5000次扫描、100万RGB-D视图、语言提示和160k 3D定向框。基于此数据库的Embodied Perceptron展示了在3D感知和语言定位中的优秀表现,适用于计算机视觉和机器人领域。通过我们的演示和基准测试,了解详细信息和应用案例。

EmbodiedScan 项目介绍

项目背景

在计算机视觉和机器人技术领域,赋能的智能体(embodied agents)被期望能够探索环境并根据人类指令执行任务。这就要求它们能够通过第一视角去全面理解三维场景,并将其用语言结合以便于交互。然而,传统的研究更加关注从全局视角进行的场景级输入输出设置。为弥补这一差距,我们引入了 EmbodiedScan,一个面向全面3D场景理解的多模态、以自我为中心的三维感知数据集和基准。该项目包含超过5000个扫描,涵盖100万自我中心的RGB-D视图、100万语言提示、160,000个3D导向框,跨越760多个类别,其中一些部分与LVIS对齐,以及80个常见类别的密集语义占用。

在此基础上,我们推出了一种基准框架,名为 Embodied Perceptron。它能够处理任意数量的多模态输入,并在我们设立的两个系列基准测试中展示了卓越的3D感知能力,即基础3D感知任务和基于语言的任务,并且在实际应用中效果显著。

项目的最新动态

  • 2024年9月:发布了EmbodiedScan v2的测试版,增加了来自ARKitScenes的约5000个新扫描,同时发布了MMScan初始版本的注释。
  • 2024年8月:初步发布了MMScan的样本数据,完整版本将在本月与ARKitScenes的注释一起发布。
  • 2024年6月:发布了关于具有史无前例的层次化语言注释的后续工作MMScan的报告。
  • 2024年4月:发布了所有基线预训练模型和日志。
  • 2024年3月:挑战测试服务器上线,邀请大家的强势提交。

快速上手

该项目在Ubuntu 20.04环境下进行测试,支持NVIDIA Driver 525.147.05、CUDA 12.0、Python 3.8.18、PyTorch 1.11.0+cu113和PyTorch3D 0.7.2等环境配置。用户可以按照以下步骤进行安装:

  1. 克隆项目仓库。
  2. 创建Python环境并安装PyTorch。
  3. 安装EmbodiedScan及其依赖。

模型和基准

Embodied Perceptron模型接受任意数量视角的RGB-D序列与文本作为多模态输入。经过经典的特征编码后,能够进行密集和稀疏的融合以进行不同预测。该模型融合了文本特征的3D特征后,可以用于基于语言的理解。

训练与评估

用户可以根据不同任务的配置文件进行训练与测试。例如,可以使用单GPU或多GPU方式对多视角3D检测模型进行训练。在测试阶段,可以通过指定预训练模型的路径来评估模型。

基准测试

我们提供了一些基线结果,其日志和预训练模型可供下载。性能数据会因数据集的重新划分而有所不同。

今后的工作计划

我们计划继续完善数据集API和相关代码,并且陆续发布更多方法的代码和完整更新版本,包括MMScan的数据和代码。

引用

如果该项目对您有帮助,请引用以下参考文献。请同时引用我们使用的原始数据集的相关文献。

致谢

特别感谢OpenMMLab、PyTorch3D、ScanNet、3RScan和Matterport3D等开源项目为我们提供了强大的支持与数据来源。我们还受到ReferIt3D和SUSTechPOINTS项目的启发。

如此多的努力和协作,推动了EmbodiedScan项目的发展,希望这个工具可以为研究人员提供更多的帮助和启发。

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

Project Cover

稿定AI

稿定设计 是一个多功能的在线设计和创意平台,提供广泛的设计工具和资源,以满足不同用户的需求。从专业的图形设计师到普通用户,无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑,稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合,帮助用户轻松实现创意设计。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号