机器人转换器2 (RT-2): 视觉-语言-动作模型
这是我对RT-2背后模型的实现。RT-2利用PALM-E作为主干,带有视觉编码器和语言主干,其中图像嵌入并连接在与语言嵌入相同的空间。该架构相对容易构建,但在统一多模态表示或单一模态表示方面缺乏深刻理解。
安装
可以通过pip轻松安装RT-2:
pip install rt2
使用方法
RT2
类是一个将PALM-E模型集成到RT-2类中的PyTorch模块。以下是一些使用示例:
初始化
首先,你需要初始化RT2
类。你可以通过向构造函数提供必要的参数来完成此操作:
import torch
from rt2.model import RT2
# img: (batch_size, 3, 256, 256)
# caption: (batch_size, 1024)
img = torch.randn(1, 3, 256, 256)
caption = torch.randint(0, 20000, (1, 1024))
# model: RT2
model = RT2()
# 运行模型处理img和caption
output = model(img, caption)
print(output) # (1, 1024, 20000)
优势
RT-2站在视觉、语言和动作的交汇点,为机器人领域提供了无与伦比的能力和显著的好处。
- 利用网络规模的数据集和机器人数据实例,RT-2在理解和将视觉和语义线索转化为机器人控制动作方面提供了卓越性能。
- RT-2的架构基于公认的模型,提供了在多种应用中成功的高机会。
- 通过清晰的安装说明和详尽的示例,你可以快速将RT-2集成到你的系统中。
- RT-2简化了多领域理解的复杂性,减少了数据处理和动作预测流水线的负担。
模型架构
RT-2集成了一个高容量的视觉-语言模型(VLM),最初在网络规模的数据上进行预训练,并与RT-2的机器人数据相结合。该VLM使用图像作为输入,生成代表自然语言文本的序列标记。为了适应机器人控制,RT-2输出的动作以模型输出中的标记表示。
RT-2使用网络和机器人数据进行微调。生成的模型解释机器人的摄像头图像,并预测由机器人执行的直接动作。本质上,它将视觉和语言模式转换为面向动作的指令,这是机器人控制领域的一个显著成就。
数据集
论文中使用的数据集
数据集 | 描述 | 来源 | 训练混合物中的百分比(RT-2-PaLI-X) | 训练混合物中的百分比(RT-2-PaLM-E) |
---|---|---|---|---|
WebLI | 大约109种语言的10亿对图像-文本对,筛选出交叉模态相似性评分最高的前10%,得到10亿个训练实例。 | Chen et al. (2023b), Driess et al. (2023) | N/A | N/A |
Episodic WebLI | 未在联合微调RT-2-PaLI-X中使用。 | Chen et al. (2023a) | N/A | N/A |
机器人数据集 | 用移动操作机器人收集的演示情节。每个演示都带有七种技能之一的自然语言指令注释。 | Brohan et al. (2022) | 50% | 66% |
Language-Table | 用于多种预测任务的训练。 | Lynch et al. (2022) | N/A | N/A |
商业使用案例
RT-2的独特能力开创了许多商业应用:
- 自动化工厂:RT-2可以通过理解和响应复杂的视觉和语言线索,显著提升工厂的自动化水平。
- 医疗保健:在机器人手术或病人护理中,RT-2可以在理解和执行基于视觉和言语指令的任务方面提供帮助。
- 智能家居:在智能家居系统中集成RT-2,可以在自动化方面带来显著改进,更加细致地理解房主的指令。
贡献
欢迎为RT-2做出贡献!请随时在GitHub仓库中打开问题或提出拉取请求。
联系
如果有任何问题或疑问,请在GitHub上打开问题或联系kyegomez。
引用
@inproceedings{RT-2,2023,
title={},
author={Anthony Brohan, Noah Brown, Justice Carbajal, Yevgen Chebotar, Xi Chen, Krzysztof Choromanski,
Tianli Ding, Danny Driess, Avinava Dubey, Chelsea Finn, Pete Florence, Chuyuan Fu,
Montse Gonzalez Arenas, Keerthana Gopalakrishnan, Kehang Han, Karol Hausman, Alexander Herzog,
Jasmine Hsu, Brian Ichter, Alex Irpan, Nikhil Joshi, Ryan Julian, Dmitry Kalashnikov, Yuheng Kuang,
Isabel Leal, Lisa Lee, Tsang-Wei Edward Lee, Sergey Levine, Yao Lu, Henryk Michalewski, Igor Mordatch,
Karl Pertsch, Kanishka Rao, Krista Reymann, Michael Ryoo, Grecia Salazar, Pannag Sanketi,
Pierre Sermanet, Jaspiar Singh, Anikait Singh, Radu Soricut, Huong Tran, Vincent Vanhoucke, Quan Vuong,
Ayzaan Wahid, Stefan Welker, Paul Wohlhart, Jialin Wu, Fei Xia, Ted Xiao, Peng Xu, Sichun Xu, Tianhe Yu,
and Brianna Zitkovich},
year={2024}
}
许可
RT-2根据MIT许可证提供。有关详情,请参阅LICENSE文件。