基于知识驱动的自动驾驶精选资源 :blue_car:
这里收集了基于知识驱动的自动驾驶相关的研究论文和有价值的开源资源。本仓库将持续更新,跟踪基于知识驱动的自动驾驶前沿进展。
🌟 欢迎为这个基于知识驱动的自动驾驶精选资源点星和贡献(PR)!🌟
[2023.12.08] 新消息:我们发布了综述《迈向知识驱动的自动驾驶》! [2023.10.24] 新消息:我们发布了基于知识驱动的自动驾驶精选资源!
:page_with_curl: 目录
:art: 基于知识驱动的自动驾驶概述
自动驾驶领域已经见证了采用知识驱动范式的方法的显著增长。在此,我们深入探讨基于知识驱动的自动驾驶,探索其动机、组成部分、挑战和前景。更多关于基于知识驱动的自动驾驶的详细信息可以在我们的论文中找到。
基于知识驱动的自动驾驶的关键组成部分。
数据集和基准
知识增强数据集 | 传感器 | 知识形式 | 任务 | 评估指标 |
---|---|---|---|---|
BDD-X | C | 解释 | 车辆控制、解释生成、场景描述 | MAE、MDC、BLEU-4、METEOR、CIDEr-D |
Cityscapes-Ref | C | 物体指代、注视热图 | 物体指代 | Acc@1 |
DR(eye)VE | C | 注视热图 | 注视预测 | CC、KLD、IG |
HAD | C | 建议 | 车辆控制 | MAE、MDC |
Talk2Car | C+L+R | 物体指代 | 物体指代 | IoU@0.5 |
DADA-2000 | C | 注视热图、碰撞物体、事故窗口 | 注视预测 | CC、KLD、NSS、SIM |
HDBD | C | 注视热图、接管意图 | 驾驶员接管检测 | AUC |
Refer-KITTI | C+L | 物体指代 | 物体指代、物体跟踪 | HOTA |
DRAMA | C | 建议、风险定位 | 运动规划 | L2误差、碰撞率 |
Rank2Tell | C+L | 物体指代、重要性排序 | 重要性估计、场景描述 | F1分数、准确率、BLEU-4、METEOR、ROUGE、CIDER |
DriveLM | C | 场景描述、问答 | 场景描述、问答、车辆控制 | ADE、FDE、准确率、碰撞率、SPICE、GPT-Score |
NuScenes-QA | C+L+R | 问答 | 问答 | 存在、计数、物体、状态、比较、准确率 |
DESIGN | C+L+R | 场景描述、问答 | 问答、运动规划 | BLEU-4、METEOR、ROUGE、L2误差、碰撞率 |
Reason2Drive | C+L | 问答 | 问答 | BLEU-4、METEOR、ROUGE、CIDER |
NuScenes-MQA | C+L+R | 问答 | 问答 | BLEU-4、METEOR、ROUGE |
LangAuto | C+L | 导航指令、注意事项指令 | 车辆控制 | RC、IS、DS |
DriveMLM | C+L | 问答、用户指令 | 车辆控制、决策解释 | RC、IS、DS、BLEU-4、METEOR、CIDER |
NuInstruct | C | 场景、帧、自我、实例信息、问答 | 问答、场景描述 | MAE、准确率、BLEU-4、mAP |
环境
- UniSim: 神经闭环传感器模拟器[
CVPR 2023
, 项目] - 城市场景的神经光照模拟 [
NeurIPS 2023
, 项目] - Waymax: 用于大规模自动驾驶研究的加速数据驱动模拟器 [
NeurIPS 2023
, Github] - LaMPilot: 一个用于自动驾驶的语言模型程序的开放基准数据集 [
CVPR 2024
] - ChatSim: 基于LLM-Agent协作的自动驾驶可编辑场景模拟 [
CVPR 2024
, Github, 项目] - Panacea: 自动驾驶的全景可控视频生成 [
CVPR 2024
, Github, 项目] - 驶向未来:基于世界模型的自动驾驶多视角视觉预测和规划 [
CVPR 2024
, 项目, Github] - 自动驾驶的广义预测模型 [
CVPR 2024
] - DriveWorld: 自动驾驶的4D预训练场景理解世界模型 [
CVPR 2024
] - NuPlan: 自动驾驶车辆的闭环ML规划基准[
arxiv 2023
, Github] - DrivingDiffusion: 基于布局引导的多视角驾驶场景视频生成潜在扩散模型 [
arxiv 2023
, 项目] - OccWorld: 自动驾驶3D占用世界模型学习 [
arxiv 2023
, 项目] - ADriver-I: 自动驾驶通用世界模型 [
arxiv 2023
] - WoVoGen: 用于可控多相机驾驶场景生成的世界体积感知扩散 [
arxiv 2023
, Github] - DriveDreamer: 面向真实世界驱动的自动驾驶世界模型 [
arxiv 2023
] - MagicDrive: 具有多样3D几何控制的街景生成 [
arxiv 2023
] - GAIA-1: 自动驾驶的生成世界模型 [
arxiv 2023
] - MUVO: 具有几何表示的自动驾驶多模态生成世界模型 [
arxiv 2023
] - 基于自然语言驱动的模拟基准和副驾驶,用于虚拟道路场景中物体交互的高效生产 [
arxiv 2023
] - DrivingGaussian: 自动驾驶周围动态场景的复合高斯溅射 [
arxiv 2023
] - OccNeRF: 使用神经辐射场的自监督多相机占用预测 [
arxiv 2023
] - 街道高斯:动态城市场景建模 [
arxiv 2024
, Github, 项目] - LimSim++: 用于部署自动驾驶多模态LLM的闭环平台 [
arxiv 2024
, Github, 项目] - 基于神经渲染的自动驾驶城市场景重建 [
arxiv 2024
] - OASim: 基于神经渲染的自动驾驶开放自适应模拟器 [
arxiv 2024
, Github, 项目] - DriveDreamer-2: 基于大语言模型增强的世界模型用于多样化驾驶视频生成 [
arxiv 2024
, Github, 项目主页] - SubjectDrive: 通过主体控制扩展自动驾驶中的生成数据 [
arxiv 2024
, 项目主页] - TCLC-GS: 用于自动驾驶环境场景的紧耦合激光雷达-相机高斯点云技术 [
arxiv 2024
] - 城市建筑师:基于布局先验的可控3D城市场景生成 [
arxiv 2024
] - CarDreamer: 基于世界模型的自动驾驶开源学习平台 [
arxiv 2024
] - 探索多模态大语言模型作为驾驶世界模型的潜力 [
arxiv 2024
, Github] - OccSora: 用于自动驾驶的4D占用生成模型作为世界模拟器 [
arxiv 2024
] - Vista: 一个具有高保真度和多样化可控性的通用驾驶世界模型 [
arxiv 2024
, Github] - MagicDrive3D: 用于街景任意视角渲染的可控3D生成技术 [
arxiv 2024
] - 通过可控长视频生成释放端到端自动驾驶的泛化能力 [
arxiv 2024
, 项目主页]
驾驶员代理
- 自动驾驶车辆的文本解释 [
ECCV 2018
, Github] - 为自动驾驶车辆落实人车建议 [
CVPR 2019
] - ADAPT:行为感知驾驶描述转换器 [
ICRA 2023
, Github] - 与车辆对话:自动驾驶汽车的语言条件自主导航 [
IROS 2019
] - Talk2Car:掌控你的自动驾驶汽车 [
EMNLP-IJNLP 2019
, 项目] - Drama:驾驶中的联合风险定位和描述 [
WACV 2023
] - DiLu:基于大型语言模型的知识驱动自动驾驶方法 [
ICLR 2024
, Github] - Talk2BEV:语言增强的鸟瞰图(BEV)地图 [
ICRA 2024
, 项目, Github] - LMDrive:基于大型语言模型的闭环端到端驾驶 [
CVPR 2024
, Github] - VLP:自动驾驶的视觉语言规划 [
CVPR 2024
] - 利用大型语言模型策略适应实现全场景驾驶 [
CVPR 2024
, Github, 项目] - 通过鸟瞰图注入多模态大型模型实现整体自动驾驶理解 [
CVPR 2024
, Github] - 像人类一样驾驶:利用大型语言模型重新思考自动驾驶 [
WACVW 2024
, Github] - GPT-Driver:用GPT学习驾驶 [
NeurIPSW 2023
, Github] - 与大型语言模型一起驾驶:融合对象级向量模态实现可解释自动驾驶 [
ICRA 2024
, Github] - NuScenes-QA:自动驾驶场景多模态视觉问答基准 [
AAAI 2024
, Github] - DriveGPT4:通过大型语言模型实现可解释的端到端自动驾驶 [
arxiv 2023
, 项目] - LanguageMPC:作为自动驾驶决策者的大型语言模型 [
arxiv 2023
, 项目] - 接收、推理和反应:在自动驾驶车辆中按你所说的驾驶,利用大型语言模型 [
arxiv 2023
] - 按你所说驾驶:在自动驾驶车辆中实现与大型语言模型的类人交互 [
arxiv 2023
] - SurrealDriver:基于大型语言模型在城市环境中设计生成式驾驶员代理仿真框架 [
arxiv 2023
] - 基于场景级扩散的语言引导交通仿真 [
arxiv 2023
] - 自动驾驶的语言提示 [
arxiv 2023
, Github] - BEVGPT:用于自动驾驶预测、决策和规划的生成式预训练大型模型 [
arxiv 2023
] - HiLM-D: 面向自动驾驶的高分辨率理解多模态大语言模型 [
arxiv 2023
] - 你能描述发生了什么吗?将预训练语言编码器集成到自动驾驶轨迹预测模型中 [
arxiv 2023
] - OpenAnnotate3D: 多模态3D数据的开放词汇自动标注系统 [
arxiv 2023
, Github] - LangProp: 一个应用于驾驶的基于语言模型的代码优化框架 [
arxiv 2024
, Github] - 通过离散扩散学习自动驾驶的无监督世界模型 [
openreview 2023
] - 利用世界模型集成进行规划 [
openreview 2023
] - 大型语言模型可以为多智能体规划设计博弈论目标 [
openreview 2023
] - TrafficBots: 面向自动驾驶仿真和运动预测的世界模型 [
arxiv 2023
] - BEV-CLIP: 自动驾驶复杂场景中的多模态BEV检索方法 [
arxiv 2023
] - 大型语言模型可以为多智能体规划设计博弈论目标 [
openreview 2023
] - 利用大型语言模型进行语义异常检测 [
arxiv 2023
] - 穿越概念障碍:揭示自动驾驶中的可解释性瓶颈 [
arxiv 2023
] - 超越名词的3D密集描述:自动驾驶的中间件 [
openreview 2023
] - SwapTransformer: 基于OSHA数据集的模仿学习高速公路超车战术规划模型 [
openreview 2023
] - 自动驾驶的语言提示 [
arxiv 2023
, Github] - 随处驾驶:基于多模态基础模型的可泛化端到端自动驾驶 [
arxiv 2023
] - 解决自动驾驶状态感知模仿学习的局限性 [
arxiv 2023
] - 自动驾驶的语言智能体 [
arxiv 2023
] - 利用大语言模型进行用户命令推理的以人为本自主系统 [
WACVW 2024
] - GPT-4V(ision)上路:视觉语言模型在自动驾驶领域的早期探索 [
arxiv 2023
] - Reason2Drive: 面向自动驾驶的可解释和链式推理 [
arxiv 2023
, Github] - GPT-4增强的自动驾驶多模态基础:利用大型语言模型的跨模态注意力 [
arxiv 2023
, Github] - ChatGPT作为你的车载副驾驶:初步尝试 [
IEEE TIV 2023
] - DriveLLM: 用大型语言模型绘制全自动驾驶的路径 [
IEEE TIV 2023
] - NuScenes-MQA: 使用标记注释对自动驾驶数据集的描述和问答进行综合评估 [
WACVW 2024
, Github] - 评估大型语言模型在自动驾驶决策中的表现 [
arxiv 2023
] - DriveMLM: 将多模态大语言模型与自动驾驶行为规划状态对齐 [
arxiv 2023
, Github] - 大型语言模型在自动驾驶中的实际应用:现实世界实验 [
arxiv 2023
] - LingoQA: 自动驾驶的视频问答 [
arxiv 2023
, Github] - DriveLM:基于图形视觉问答的驾驶 [
arxiv 2023
, Github] - LLM-Assist:用基于语言的推理增强闭环规划 [
arxiv 2024
, 项目] - BEV-CLIP:自动驾驶复杂场景中的多模态鸟瞰图检索方法 [
arxiv 2024
] - DME-Driver:在自动驾驶中整合人类决策逻辑和3D场景感知 [
arxiv 2024
] - RAG-Driver:利用多模态大型语言模型中的检索增强式上下文学习实现可泛化的驾驶解释 [
arxiv 2024
, Github, 项目] - DriveVLM:自动驾驶和大型视觉语言模型的融合 [
arxiv 2024
, 项目] - 驾驶场景的具身理解 [
arxiv 2024
, Github] - 面向LLM驱动的驾驶代理的驾驶风格对齐 [
arxiv 2024
] - 大型语言模型驱动的上下文感知运动预测 [
arxiv 2024
] - LORD:基于大型模型的自动驾驶对立奖励设计 [
arxiv 2024
] - 利用LLM提示多模态标记以增强端到端自动驾驶模仿学习 [
arxiv 2024
] - AgentsCoDriver:大型语言模型赋能的协作驾驶与终身学习 [
arxiv 2024
] - OmniDrive:一个具有3D感知、推理和规划能力的全面LLM代理自动驾驶框架 [
arxiv 2024
] - Co-driver:基于VLM的自动驾驶助手,具有类人行为和对复杂道路场景的理解 [
arxiv 2024
] - AD-H:具有分层代理的自动驾驶 [
arxiv 2024
] - DriVLMe:通过具身和社交体验增强基于LLM的自动驾驶代理 [
arxiv 2024
] - PlanAgent:用于闭环车辆运动规划的多模态大型语言代理 [
arxiv 2024
] - REvolve:利用大型语言模型进行自动驾驶奖励进化 [
arxiv 2024
, 项目] - 持续学习、适应和改进:自动驾驶的双重过程方法 [
arxiv 2024
, Github, 项目]
:clipboard: 调研
- 大规模基础模型在自动驾驶中的应用 [
arxiv 2023
] - 自动驾驶多模态大语言模型调研 [
arxiv 2023
] - 自动驾驶大语言模型调研 [
arxiv 2023
] - 自动驾驶和智能交通系统中的视觉语言模型 [
arxiv 2023
] - 明智选择你的模拟器:自动驾驶开源模拟器评述 [
arxiv 2023
] - 迈向知识驱动的自动驾驶 [
arxiv 2023
] - 打造自动驾驶视觉基础模型:挑战、方法和机遇 [
arxiv 2024
] - 自动驾驶基础模型调研 [
arxiv 2024
] - 自动驾驶世界模型初步调研 [
arxiv 2024
] - 深入探讨道路场景理解的多模态多任务基础模型:从学习范式的角度 [
arxiv 2024
] - 基础模型在推进自动驾驶汽车中的潜在作用 [
arxiv 2024
]
:mortar_board: 教程
- [WACV2024 研讨会] MAPLM:用于地图和交通场景理解的大规模视觉语言数据集
- [博客] LINGO-1:探索自动驾驶的自然语言
- [博客] 介绍 GAIA-1:尖端自主驾驶生成式人工智能模型
- [博客] Ghost Gym:自动驾驶神经网络模拟器
:bookmark: 引用
如果您觉得我们的论文有用,请引用:
@article{li2023knowledgedriven,
title={Towards Knowledge-driven Autonomous Driving},
author={Li, Xin and Bai, Yeqi and Cai, Pinlong and Wen, Licheng and Fu, Daocheng and Zhang, Bo and Yang, Xuemeng and Cai, Xinyu and Ma, Tao and Guo, Jianfei and Gao, Xing and Dou, Min and Shi, Botian and Liu, Yong and He, Liang and Qiao, Yu},
journal={arXiv preprint arXiv:2312.04316},
year = {2023}
}
:memo: 许可证
知识驱动自动驾驶精选资源在 Apache 2.0 许可下发布。