Instruct2Act - 利用大语言模型实现多模态指令向机器人操作的映射

Instruct2Act 项目介绍

Instruct2Act 是一个创新的框架，主要利用大型语言模型（LLM）将多模态指令映射到顺序的机器人操作中，特别是针对机器人操作任务。基础模型已经在文本生成、全景分割和自然语言处理等各种应用中取得了显著进展，而 Instruct2Act 则进一步结合这些模型的优势，专注于将复杂的高层次指令转换为精准的策略代码。

项目的核心理念

Instruct2Act 通过生成 Python 程序来实现对机器人任务的全面感知、计划和行动的循环。感知阶段使用预定义的 API 来访问多种基础模型，例如通过“Segment Anything Model”准确定位候选对象，以及通过 CLIP 对其进行分类。这样，Instruct2Act 可以灵活地调整来适应各种指令模式和输入类型，以满足特定任务的需求。关键在于其零次学习方法在某些任务中优于许多先进的学习策略。

支持的模块

目前，Instruct2Act 支持多个模块，并期待用户可以在此基础上增加个性化模块。在使用之前，需要下载并设置一些基础模型的校验点（ckpts），例如 SAM 和 CLIP 模型。

运行指导

运行 Instruct2Act 需要安装指定的依赖包，并设置一些基本参数，例如 OpenAI 的 API 密钥。具体的安装和运行步骤详见项目的使用说明。

提示设置

Instruct2Act 实现了两种提示设定：任务特定的提示和任务无关的提示。任务特定的提示适用于已知流程的具体机器人操作任务，而任务无关的提示适用于通用目的。用户可以根据具体需求在代码中进行相应设置。此外，还提供了指针语言增强的提示，可以通过光标点击选择目标对象。

评估任务

Instruct2Act 通过在 VIMABench 平台上选择六个代表性的元任务来评估其有效性，这些任务涵盖了视觉操作、场景理解、旋转、重排及恢复等方面。评估说明和参考示例详见项目手册。

注意事项

为了加速推理过程，Instruct2Act 提供了使用 CUDA 设备的选项，需要用户适当修改源码并重新编译。在评估过程中，建议用户关闭调试窗口以提升程序效率，并根据需要调整 VIMABench 原有的快速运动。

鸣谢

Instruct2Act 项目得益于许多优秀开源项目的支持，包括 VIMABench、OpenCLIP 和 SAM 等，同时也受到 Viper、TaskMatrix 和 visprog 等项目的启发。

总之，Instruct2Act 探索了利用大型语言模型帮助机器人实现高效操作的新路径，通过结合多个基础模型及灵活的指令映射策略，为机器人操作领域带来了新的可能性。