多模态大语言模型在自动驾驶领域的应用调研

我们在仓库中新增了来自CVPR 2024的参考文献，部分参考文献来自自动驾驶之心。

:boom: 最新消息：我们团队的MAPLM（腾讯、伊利诺伊大学香槟分校）和LaMPilot（普渡大学）被CVPR 2024接收。

消息：LLVM-AD研讨会在WACV 2024上成功举办。

现场照片

WACV 2024会议论文集 | Arxiv | 研讨会 | 机器之心报道

第一届WACV自动驾驶大语言和视觉模型研讨会（LLVM-AD）总结

摘要

随着大语言模型（LLMs）和视觉基础模型（VFMs）的出现，受益于大模型的多模态人工智能系统有潜力像人类一样感知真实世界、做出决策并控制工具。近几个月来，大语言模型在自动驾驶和地图系统中引起了广泛关注。尽管潜力巨大，但在将其应用于大语言模型驾驶系统方面，仍然缺乏对关键挑战、机遇和未来努力方向的全面理解。在这个仓库中，我们对该领域进行了系统性调查。首先，我们介绍了多模态大语言模型（MLLMs）的背景、使用大语言模型开发多模态模型的情况以及自动驾驶的历史。然后，我们概述了现有的用于驾驶、交通和地图系统的MLLM工具，以及现有的数据集和基准。此外，我们总结了第一届WACV自动驾驶大语言和视觉模型研讨会（LLVM-AD）的工作，这是首个关于自动驾驶中大语言模型的同类研讨会。为进一步推动该领域的发展，我们还讨论了在自动驾驶系统中使用MLLMs需要学术界和产业界共同解决的几个重要问题。

精选论文

用于自动驾驶感知、规划和控制的MLLM

如果您发现该领域有任何有趣的新论文，请告知我们。我们将更新到表格中。所有这些论文都将被收录到下一版调研论文中。

模型	年份	骨干网络	任务	模态	学习方式	输入	输出
用LLMs驾驶	2023	LLaMA	感知控制	视觉、语言	微调	向量查询	响应/动作
Talk2BEV	2023	Flan5XXL Vicuna-13b	感知规划	视觉、语言	上下文学习	图像查询	响应
GAIA-1	2023	-	规划	视觉、语言	预训练	视频提示	视频
Dilu	2023	GPT-3.5 GPT-4	规划控制	语言	上下文学习	文本	动作
像说话一样驾驶	2023	GPT-4	规划	语言	上下文学习	文本	代码
接收、推理和反应	2023	GPT-4	规划控制	语言	上下文学习	文本	动作
像人类一样驾驶	2023	GPT-3.5	规划控制	语言	上下文学习	文本	动作
GPT-Driver	2023	GPT-3.5	规划	视觉、语言	上下文学习	文本	轨迹
SurrealDriver	2023	GPT-4	规划控制	语言	上下文学习	文本	文本/动作
LanguageMPC	2023	GPT-3.5	规划	语言	上下文学习	文本	动作
DriveGPT4	2023	Llama 2	规划控制	视觉、语言	上下文学习	图像文本动作	文本/动作
从LLMs提取领域知识	2023	GPT-3.5	文本生成	语言	上下文学习	文本	概念
LaMPilot	2023	GPT-4 / LLaMA-2 / PaLM2	规划（代码生成）	语言	上下文学习	文本	代码作为动作
语言代理	2023	GPT-3.5	规划	语言	训练	文本	动作
LMDrive	2023	CARLA + LLaVA	规划控制	视觉、语言	训练	RGB图像LiDAR文本	控制信号
使用GPT-4V(ision)在路上	2023	GPT-4Vision	感知	视觉、语言	上下文学习	RGB图像文本	文本描述
DriveLLM	2023	GPT-4	规划控制	语言	上下文学习	文本	动作
DriveMLM	2023	LLaMA+Q-Former	感知规划	视觉、语言	训练	RGB图像LiDAR文本	决策状态
DriveLM	2023	GVQA	感知规划	视觉、语言	训练	RGB图像文本	文本/动作
LangProp	2024	IL, DAgger, RL + ChatGPT	规划（代码/动作生成）	CARLA模拟器视觉、语言	训练	CARLA模拟器文本	代码作为动作
LimSim++	2024	LimSim, GPT-4	规划	模拟器BEV、语言	上下文学习	模拟器视觉、语言	文本/动作
DriveVLM	2024	Qwen-VL	规划	图像序列、语言	训练	视觉、语言	文本/动作
RAG-Driver	2024	Vicuna1.5-7B	规划控制	视频、语言	训练	视觉、语言	文本/动作
ChatSim	2024	GPT-4	感知（图像编辑）	图像、语言	上下文学习	视觉、语言	图像
VLP	2024	CLIP文本编码器	规划	图像、语言	训练	视觉、语言	文本/动作

数据集

该表格的灵感来自DriveLM中的比较和统计数据

数据集	基础数据集	语言形式	视角	规模	发布情况
BDD-X 2018	BDD	描述	规划描述与理由	800万帧，2万条文本	:heavy_check_mark:
HAD HRI Advice 2019	HDD	建议	目标导向与刺激驱动建议	5,675个视频片段，4.5万条文本	:heavy_check_mark:
Talk2Car 2019	nuScenes	描述	目标点描述	3万帧，1万条文本	:heavy_check_mark:
SUTD-TrafficQA 2021	自行收集	问答	问答	1万帧，6.2万条文本	:heavy_check_mark:
DRAMA 2022	自行收集	描述	问答 + 字幕	1.8万帧，10万条文本	:heavy_check_mark:
nuScenes-QA 2023	nuScenes	问答	感知结果	3万帧，46万个生成的问答对	nuScenes-QA
Reason2Drive 2023	nuScenes, Waymo, ONCE	问答	感知、预测和推理	60万视频-文本对	Reason2Drive
Rank2Tell 2023	自行收集	问答	风险定位和排序	116个视频片段（每个20秒）	Rank2Tell
DriveLM 2023	nuScenes	问答 + 场景描述	带逻辑的感知、预测和规划	3万帧，36万个标注问答对	DriveLM
MAPLM 2023	THMA	问答 + 场景描述	感知、预测和高精地图标注	200万帧，1600万标注高精地图描述 + 1.3万个发布的问答对	MAPLM
LingoQA 2023	Wayve收集	问答	感知和规划	2.8万帧，41.99万问答 + 字幕	LingoQA

其他综述论文

模型	年份	重点
自动驾驶和智能交通系统中的视觉语言模型	2023	交通系统的视觉-语言模型
LLM4Drive: 自动驾驶大型语言模型综述	2023	自动驾驶的语言模型
走向知识驱动的自动驾驶	2023	总结如何使用大型语言模型、世界模型和神经渲染来贡献更全面、适应性强和智能的自动驾驶系统
大规模基础模型在自动驾驶中的应用	2023	自动驾驶的大规模基础模型（LLMs, VLMs, VFMs, 世界模型）
自动驾驶中以数据为中心的演变：大数据系统、数据挖掘和闭环技术的综合调查	2023	闭环自动驾驶
自动驾驶数据集调查：数据统计、标注和展望	2024	自动驾驶数据集
自动驾驶基础模型综述	2024	自动驾驶的多模态基础模型

WACV 2024 LLVM-AD接受的论文

自动驾驶多模态大型语言模型综述

像您说话那样驾驶：实现自动驾驶车辆中与大型语言模型的类人交互

像人类一样驾驶：用大型语言模型重新思考自动驾驶

光束平差的游戏 - 学习高效收敛接受为ICCV 2023论文的技术报告

VLAAD：自动驾驶的视觉和语言助手

一种更安全的基于视觉的四旋翼无人机自主规划系统，具有动态障碍物轨迹预测功能及其与LLMs的应用

使用LLMs进行用户命令推理的以人为本的自主系统

NuScenes-MQA：使用标记注释对自动驾驶数据集的字幕和问答进行综合评估基于语义分割的多分支CNN的延迟驱动空间稀疏优化

LIP-Loc: 用于跨模态定位的激光雷达图像预训练

未来方向部分

自动驾驶的社会行为（伊利诺伊大学厄巴纳-香槟分校，普渡大学）

个性化自动驾驶（普渡大学，伊利诺伊大学厄巴纳-香槟分校）

自动驾驶中大语言模型的硬件支持（SambaNova Systems）

用于高清地图的大语言模型（腾讯）

自动驾驶的代码即行动（普渡大学，伊利诺伊大学厄巴纳-香槟分校）

引用

如果本调研和我们的研讨会对您有启发，请引用我们的工作：

@inproceedings{cui2024survey,
  title={自动驾驶多模态大语言模型调研},
  author={崔灿 and 马云生 and 曹旭 and 叶文谦 and 周洋 and 梁凯钊 and 陈金泰 and 卢隽武 and 杨子聪 and 廖奎达 等},
  booktitle={计算机视觉与模式识别冬季会议论文集},
  pages={958--979},
  year={2024}
}