自动驾驶世界模型精选

收集一些世界模型（用于自动驾驶）论文。

如果您发现一些被忽略的论文，欢迎创建拉取请求、提出问题，或给我发邮件 / 给Qi Wang发邮件。欢迎以任何形式的贡献来使这个列表更加全面。📣📣📣

如果您觉得这个仓库有用，请考虑给我们一个星标🌟。

请随意与他人分享这个列表！🥳🥳🥳

工作坊 & 挑战赛

CVPR 2024 工作坊 & 挑战赛 | OpenDriveLab 赛道 #4：预测性世界模型。

作为现实的抽象时空表示，世界模型可以基于当前状态预测未来状态。世界模型的学习过程有潜力将预训练的基础模型提升到下一个层次。给定仅视觉输入，神经网络输出未来的点云来证明其对世界的预测能力。
CVPR 2023 自动驾驶工作坊 挑战赛 3：ARGOVERSE 挑战赛，使用 Argoverse 2 传感器数据集进行3D 占用预测。预测未来3秒世界的时空占用。

论文

世界模型原始论文

使用占用网格进行移动机器人感知和导航 [论文]

技术博客或视频

Yann LeCun：通向自主机器智能的路径 [论文] [视频]
CVPR'23 WAD 主题演讲 - Ashok Elluswamy，特斯拉 [视频]
Wayve 介绍 GAIA-1：一个前沿的自主生成式 AI 模型 [博客]

世界模型是预测接下来可能发生什么的能力的基础，这对自动驾驶至关重要。它们可以作为一个学习的模拟器，或者是基于模型的强化学习（RL）或规划的心理"假设"思想实验。通过将世界模型纳入我们的驾驶模型中，我们可以使它们更好地理解人类决策，并最终推广到更多的现实世界情况。

综述

自动驾驶多模态大语言模型综述。WACVW 2024 [论文] [代码]
将网络空间与物理世界对齐：具身人工智能的全面综述。arXiv 2024.7 [论文] [代码]
Sora 是一个世界模拟器吗？通用世界模型及其他的全面综述。arXiv 2024.5 [论文] [代码]
自动驾驶的世界模型：初步综述。2024.3, arxiv [论文]

2024

[SEM2] 通过语义掩码世界模型增强端到端城市自动驾驶的样本效率和鲁棒性。TITS [论文]
[DriveDreamer] DriveDreamer:面向自动驾驶的真实世界驱动世界模型。ECCV 2024 [论文] [代码]
[GenAD] GenAD:生成式端到端自动驾驶。ECCV 2024 [论文] [代码]
[OccWorld] OccWorld:为自动驾驶学习3D占用世界模型。ECCV 2024 [论文] [代码]
[CarFormer] CarFormer:使用学习到的以物体为中心的表示进行自动驾驶。ECCV 2024 [论文] [代码]
[MARL-CCE] 在生成式世界模型下建模自动驾驶中的竞争行为。ECCV 2024 [代码]
[3D-VLA] 3D-VLA:3D视觉-语言-动作生成式世界模型。ICML 2024 [论文]
[RoboDreamer] RoboDreamer:学习用于机器人想象的组合式世界模型。ICML 2024 [论文] [代码]
[ViDAR] 视觉点云预测实现可扩展自动驾驶。CVPR 2024 [论文] [代码]
[GenAD] 自动驾驶的广义预测模型。CVPR 2024 [论文] [数据]
[Cam4DOCC] Cam4DOcc:自动驾驶应用中仅基于相机的4D占用预测基准。CVPR 2024 [论文] [代码]
[Drive-WM] 驶向未来:基于世界模型的自动驾驶多视图视觉预测和规划。CVPR 2024 [论文] [代码]
[DriveWorld] DriveWorld:通过世界模型实现自动驾驶的4D预训练场景理解。CVPR 2024 [论文]
[Panacea] Panacea:自动驾驶的全景可控视频生成。CVPR 2024 [论文] [代码]
[MagicDrive] MagicDrive:具有多样3D几何控制的街景生成。ICLR 2024 [论文] [代码]
[Copilot4D] Copilot4D:通过离散扩散学习自动驾驶的无监督世界模型。ICLR 2024 [论文]
[SafeDreamer] SafeDreamer:基于世界模型的安全强化学习。ICLR 2024 [论文] [代码]
[BEVWorld] BEVWorld:通过统一BEV潜在空间实现自动驾驶的多模态世界模型。arXiv 2024.7 [论文] [代码]
[TOKEN] 将世界标记化为对象级知识以解决自动驾驶中的长尾事件。arXiv 2024.7 [论文]
[UnO] UnO:用于感知和预测的无监督占用场。arXiv 2024.6 [论文] [代码]
[UMAD] UMAD:自动驾驶的无监督掩码级异常检测。arXiv 2024.6 [论文]
[SimGen] SimGen:模拟器条件下的驾驶场景生成。arXiv 2024.6 [论文] [代码]
[AdaptiveDriver] 使用自适应世界模型进行自动驾驶规划。arXiv 2024.6 [论文] [代码]
[LAW] 通过潜在世界模型增强端到端自动驾驶。arXiv 2024.6 [论文] [代码]
[Delphi] 通过可控长视频生成释放端到端自动驾驶的泛化能力。arXiv 2024.6 [论文] [代码]
[OccSora] OccSora:作为自动驾驶世界模拟器的4D占用生成模型。arXiv 2024.5 [论文] [代码]
[Vista] Vista:具有高保真度和多功能可控性的通用驾驶世界模型。arXiv 2024.5 [论文] [代码]
[MagicDrive3D] MagicDrive3D:街景中任意视角渲染的可控3D生成。arXiv 2024.5 [论文] [代码]
[CarDreamer] CarDreamer:基于世界模型的自动驾驶开源学习平台。arXiv 2024.5 [论文] [代码]
[DriveSim] 探索多模态LLM作为驾驶世界模型。arXiv 2024.5 [论文] [代码]
[LidarDM] LidarDM:在生成世界中的生成式激光雷达模拟。arXiv 2024.4 [论文] [代码]
[SubjectDrive] SubjectDrive:通过主体控制扩展自动驾驶中的生成数据。arXiv 2024.3 [论文] [项目]
[DriveDreamer-2] DriveDreamer-2:LLM增强的世界模型用于多样化驾驶视频生成。arXiv 2024.3 [论文] [代码]
[Think2Drive] Think2Drive:通过在潜在世界模型中思考实现准真实自动驾驶的高效强化学习。arXiv 2024.2 [论文]

2023

[TrafficBots] TrafficBots:面向自动驾驶仿真和运动预测的世界模型。ICRA 2023 [论文] [代码]
[WoVoGen] WoVoGen:用于可控多相机驾驶场景生成的世界体积感知扩散。arXiv 2023.12 [论文] [代码]
[CTT] 分类交通Transformer:使用标记化潜在表示进行可解释和多样化的行为预测。arXiv 2023.11 [论文]
[MUVO] MUVO:具有几何表示的自动驾驶多模态生成世界模型。arXiv 2023.11 [论文]
[DrivingDiffusion] DrivingDiffusion:基于布局引导的多视图驾驶场景视频生成与潜在扩散模型。arXiv 2023.10 [论文] [代码]
[GAIA-1] GAIA-1:自动驾驶生成式世界模型。arXiv 2023.9 [论文]
[ADriver-I] ADriver-I:自动驾驶通用世界模型。arXiv 2023.9 [论文]
[UniWorld] UniWorld:通过世界模型进行自动驾驶预训练。arXiv 2023.8 [论文] [代码]

2022

[MILE] 用于城市驾驶的基于模型的模仿学习。NeurIPS 2022 [论文] [代码]
[Iso-Dream] Iso-Dream：在世界模型中隔离和利用不可控的视觉动态。NeurIPS 2022 Spotlight [论文] [代码]
[Symphony] Symphony：学习自动驾驶模拟中的真实和多样化代理。ICRA 2022 [论文]
用于自动驾驶规划的分层基于模型的模仿学习。IROS 2022 [论文]
[SEM2] 通过语义掩蔽世界模型提高端到端城市自动驾驶的样本效率和鲁棒性。NeurIPS 2022 workshop [论文]

其他世界模型论文

2024

[LLM-Sim] 语言模型能否作为基于文本的世界模拟器？ACL [论文] [代码]
[Δ-IRIS] 具有上下文感知标记化的高效世界模型。ICML 2024 [论文] [代码]
[AD3] AD3：隐式动作是世界模型区分多样视觉干扰的关键。ICML 2024 [论文]
[Hieros] Hieros：基于结构化状态空间序列世界模型的分层想象。ICML 2024 [论文]
[HRSSM] 学习世界模型的潜在动态鲁棒表示。ICML 2024 [论文] [代码]
[HarmonyDream] HarmonyDream：世界模型内的任务协调。ICML 2024 [论文] [代码]
[REM] 通过并行观察预测改进基于标记的世界模型。ICML 2024 [论文] [代码]
Transformer世界模型是否提供更好的策略梯度？ICML 2024 [论文]
[TD-MPC2] TD-MPC2：可扩展、鲁棒的连续控制世界模型。ICLR 2024 [论文] [Torch代码]
[DreamSmooth] DreamSmooth：通过奖励平滑改进基于模型的强化学习。ICLR 2024 [论文]
[R2I] 用世界模型掌握记忆任务。ICLR 2024 [论文] [JAX代码]
[MAMBA] MAMBA：元强化学习的有效世界模型方法。ICLR 2024 [论文] [代码]
[UrbanWorld] UrbanWorld：用于3D城市生成的城市世界模型。arXiv 2024.7 [论文]
[PWM] PWM：使用大型世界模型进行策略学习。arXiv 2024.7 [论文] [代码]
[预测与行动] 预测与行动：世界建模与代理建模之间的权衡。arXiv 2024.7 [论文]
[GenRL] 用于通用具身代理的多模态基础世界模型。arXiv 2024.6 [论文] [代码]
[DLLM] 带有大型语言模型提示的世界模型用于目标实现。arXiv 2024.6 [论文]
语言模型的认知地图：通过口头表达世界模型进行最优规划。arXiv 2024.6 [论文]
[CityBench] CityBench：评估大型语言模型作为世界模型的能力。arXiv 2024.6 [论文] [代码]
[CoDreamer] CoDreamer：基于通信的分散世界模型。arXiv 2024.6 [论文]
[EBWM] 具有认知启发的基于能量的世界模型。arXiv 2024.6 [论文]
评估生成模型中隐含的世界模型。arXiv 2024.6 [论文] [代码]
用于物理世界建模的Transformer和槽编码的样本高效方法。arXiv 2024.5 [论文] [代码]
[Puppeteer] 作为视觉全身人形机器人控制器的分层世界模型。arXiv 2024.5 Yann LeCun [论文] [代码]
[BWArea模型] BWArea模型：学习用于可控语言生成的世界模型、逆动力学和策略。arXiv 2024.5 [论文]
[Pandora] Pandora：面向具有自然语言动作和视频状态的通用世界模型。[论文] [代码]
[WKM] 具有世界知识模型的代理规划。arXiv 2024.5 [论文] [代码]
[Diamond] 用于世界建模的扩散：Atari中视觉细节很重要。arXiv 2024.5 [论文] [代码]
[Newton] Newton™ – 首个理解物理世界的基础模型。Archetype AI [博客]
[竞争与组合] 竞争与组合：学习模块化世界模型的独立机制。arXiv 2024.4 [论文]
[MagicTime] MagicTime：作为变形模拟器的延时视频生成模型。arXiv 2024.4 [论文] [代码]
[梦想多个世界] 梦想多个世界：学习上下文世界模型有助于零样本泛化。arXiv 2024.3 [论文] [代码]
[ManiGaussian] ManiGaussian：用于多任务机器人操作的动态高斯溅射。arXiv 2024.3 [论文] [代码]
[V-JEPA] V-JEPA：视频联合嵌入预测架构。Meta AI [博客] [论文] [代码]
[IWM] 学习和利用视觉表示学习中的世界模型。Meta AI [论文]
[Genie] Genie：生成式交互环境。DeepMind [论文] [博客]
[Sora] 作为世界模拟器的视频生成模型。OpenAI [技术报告]
[LWM] 基于百万长度视频和语言的世界模型与RingAttention。arXiv 2024.2 [论文] [代码]
使用世界模型集成进行规划。OpenReview [论文]
[WorldDreamer] WorldDreamer：通过预测掩码标记实现通用世界模型的视频生成。arXiv 2024.1 [论文] [代码]