DriveMLM

大型语言模型（LLM）为智能代理开启了新的可能性，赋予它们类人的思维和认知能力。在这项工作中，我们深入探讨了大型语言模型在自动驾驶（AD）中的潜力。我们提出了DriveMLM，一个基于LLM的自动驾驶框架，可以在真实模拟器中执行闭环自动驾驶。为此，（1）我们通过根据现成的运动规划模块标准化决策状态，来弥合语言决策和车辆控制命令之间的差距。（2）我们采用多模态LLM（MLLM）来模拟模块化自动驾驶系统的行为规划模块，该模块使用驾驶规则、用户命令和来自各种传感器（例如，摄像头、激光雷达）的输入作为输入，做出驾驶决策并提供解释；这个模型可以即插即用地应用于现有的自动驾驶系统，如Apollo，实现闭环驾驶。（3）我们设计了一个有效的数据引擎，用于收集包含决策状态和相应解释注释的数据集，以进行模型训练和评估。我们进行了广泛的实验，结果表明我们的模型在CARLA Town05 Long上达到了76.1的驾驶得分，在相同设置下超过Apollo基准线4.7分，证明了我们模型的有效性。我们希望这项工作能够作为使用LLM进行自动驾驶的基准。

🗓️ 计划

发布数据集和注释
发布代码和模型

🏠 概述

🎁 主要特点

遵循人类指令。 <img width="400" alt="image" src="https://yellow-cdn.veclightyear.com/835a84d5/667c0152-8a29-4f31-bafc-8ccbfa957091.jpg">
处理更多场景。 <img width="800" alt="image" src="https://yellow-cdn.veclightyear.com/835a84d5/bee1339b-655b-4be1-98e3-df36d41c4da6.jpg">
nuScenes上的示例。 <img width="800" alt="image" src="https://yellow-cdn.veclightyear.com/835a84d5/d0955cce-ade2-4102-b93f-3fd379b3d430.jpg">

🎫 许可证

本项目根据Apache 2.0许可证发布。

🖊️ 引用

如果您发现这个项目对您的研究有用，请考虑引用：

@article{wang2023drivemlm,
  title={DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral Planning States for Autonomous Driving},
  author={Wang, Wenhai and Xie, Jiangwei and Hu, ChuanYang and Zou, Haoming and Fan, Jianan and Tong, Wenwen and Wen, Yang and Wu, Silei and Deng, Hanming and Li, Zhiqi and others},
  journal={arXiv preprint arXiv:2312.09245},
  year={2023}
}