Project Icon

Awesome-World-Model

自动驾驶领域的世界模型研究与应用进展

本页面汇总了关于自动驾驶世界模型的最新论文和研究成果,涵盖包括CVPR、ECCV、ICML和ICLR等知名会议和期刊的前沿研究。通过这些世界模型,研究人员能够预测未来状态,提升基础模型性能,并生成未来的点云数据。此外,页面还介绍了重要的研讨会与挑战赛,以及业界专家的技术博客和视频,提供了对自动驾驶世界模型应用的全面视角。

自动驾驶世界模型精选 Awesome

收集一些世界模型(用于自动驾驶)论文。

如果您发现一些被忽略的论文,欢迎创建拉取请求提出问题,或给我发邮件 / 给Qi Wang发邮件。欢迎以任何形式的贡献来使这个列表更加全面。📣📣📣

如果您觉得这个仓库有用,请考虑给我们一个星标🌟。

请随意与他人分享这个列表!🥳🥳🥳

工作坊 & 挑战赛

论文

世界模型原始论文

  • 使用占用网格进行移动机器人感知和导航 [论文]

技术博客或视频

  • Yann LeCun:通向自主机器智能的路径 [论文] [视频]
  • CVPR'23 WAD 主题演讲 - Ashok Elluswamy,特斯拉 [视频]
  • Wayve 介绍 GAIA-1:一个前沿的自主生成式 AI 模型 [博客]

    世界模型是预测接下来可能发生什么的能力的基础,这对自动驾驶至关重要。它们可以作为一个学习的模拟器,或者是基于模型的强化学习(RL)或规划的心理"假设"思想实验。通过将世界模型纳入我们的驾驶模型中,我们可以使它们更好地理解人类决策,并最终推广到更多的现实世界情况。

综述

  • 自动驾驶多模态大语言模型综述。WACVW 2024 [论文] [代码]
  • 将网络空间与物理世界对齐:具身人工智能的全面综述。arXiv 2024.7 [论文] [代码]
  • Sora 是一个世界模拟器吗?通用世界模型及其他的全面综述。arXiv 2024.5 [论文] [代码]
  • 自动驾驶的世界模型:初步综述。2024.3, arxiv [论文]

2024

  • [SEM2] 通过语义掩码世界模型增强端到端城市自动驾驶的样本效率和鲁棒性。TITS [论文]
  • [DriveDreamer] DriveDreamer:面向自动驾驶的真实世界驱动世界模型。ECCV 2024 [论文] [代码]
  • [GenAD] GenAD:生成式端到端自动驾驶。ECCV 2024 [论文] [代码]
  • [OccWorld] OccWorld:为自动驾驶学习3D占用世界模型。ECCV 2024 [论文] [代码]
  • [CarFormer] CarFormer:使用学习到的以物体为中心的表示进行自动驾驶。ECCV 2024 [论文] [代码]
  • [MARL-CCE] 在生成式世界模型下建模自动驾驶中的竞争行为。ECCV 2024 [代码]
  • [3D-VLA] 3D-VLA:3D视觉-语言-动作生成式世界模型。ICML 2024 [论文]
  • [RoboDreamer] RoboDreamer:学习用于机器人想象的组合式世界模型。ICML 2024 [论文] [代码]
  • [ViDAR] 视觉点云预测实现可扩展自动驾驶。CVPR 2024 [论文] [代码]
  • [GenAD] 自动驾驶的广义预测模型。CVPR 2024 [论文] [数据]
  • [Cam4DOCC] Cam4DOcc:自动驾驶应用中仅基于相机的4D占用预测基准。CVPR 2024 [论文] [代码]
  • [Drive-WM] 驶向未来:基于世界模型的自动驾驶多视图视觉预测和规划。CVPR 2024 [论文] [代码]
  • [DriveWorld] DriveWorld:通过世界模型实现自动驾驶的4D预训练场景理解。CVPR 2024 [论文]
  • [Panacea] Panacea:自动驾驶的全景可控视频生成。CVPR 2024 [论文] [代码]
  • [MagicDrive] MagicDrive:具有多样3D几何控制的街景生成。ICLR 2024 [论文] [代码]
  • [Copilot4D] Copilot4D:通过离散扩散学习自动驾驶的无监督世界模型。ICLR 2024 [论文]
  • [SafeDreamer] SafeDreamer:基于世界模型的安全强化学习。ICLR 2024 [论文] [代码]
  • [BEVWorld] BEVWorld:通过统一BEV潜在空间实现自动驾驶的多模态世界模型。arXiv 2024.7 [论文] [代码]
  • [TOKEN] 将世界标记化为对象级知识以解决自动驾驶中的长尾事件。arXiv 2024.7 [论文]
  • [UnO] UnO:用于感知和预测的无监督占用场。arXiv 2024.6 [论文] [代码]
  • [UMAD] UMAD:自动驾驶的无监督掩码级异常检测。arXiv 2024.6 [论文]
  • [SimGen] SimGen:模拟器条件下的驾驶场景生成。arXiv 2024.6 [论文] [代码]
  • [AdaptiveDriver] 使用自适应世界模型进行自动驾驶规划。arXiv 2024.6 [论文] [代码]
  • [LAW] 通过潜在世界模型增强端到端自动驾驶。arXiv 2024.6 [论文] [代码]
  • [Delphi] 通过可控长视频生成释放端到端自动驾驶的泛化能力。arXiv 2024.6 [论文] [代码]
  • [OccSora] OccSora:作为自动驾驶世界模拟器的4D占用生成模型。arXiv 2024.5 [论文] [代码]
  • [Vista] Vista:具有高保真度和多功能可控性的通用驾驶世界模型。arXiv 2024.5 [论文] [代码]
  • [MagicDrive3D] MagicDrive3D:街景中任意视角渲染的可控3D生成。arXiv 2024.5 [论文] [代码]
  • [CarDreamer] CarDreamer:基于世界模型的自动驾驶开源学习平台。arXiv 2024.5 [论文] [代码]
  • [DriveSim] 探索多模态LLM作为驾驶世界模型。arXiv 2024.5 [论文] [代码]
  • [LidarDM] LidarDM:在生成世界中的生成式激光雷达模拟。arXiv 2024.4 [论文] [代码]
  • [SubjectDrive] SubjectDrive:通过主体控制扩展自动驾驶中的生成数据。arXiv 2024.3 [论文] [项目]
  • [DriveDreamer-2] DriveDreamer-2:LLM增强的世界模型用于多样化驾驶视频生成。arXiv 2024.3 [论文] [代码]
  • [Think2Drive] Think2Drive:通过在潜在世界模型中思考实现准真实自动驾驶的高效强化学习。arXiv 2024.2 [论文]

2023

  • [TrafficBots] TrafficBots:面向自动驾驶仿真和运动预测的世界模型。ICRA 2023 [论文] [代码]
  • [WoVoGen] WoVoGen:用于可控多相机驾驶场景生成的世界体积感知扩散。arXiv 2023.12 [论文] [代码]
  • [CTT] 分类交通Transformer:使用标记化潜在表示进行可解释和多样化的行为预测。arXiv 2023.11 [论文]
  • [MUVO] MUVO:具有几何表示的自动驾驶多模态生成世界模型。arXiv 2023.11 [论文]
  • [DrivingDiffusion] DrivingDiffusion:基于布局引导的多视图驾驶场景视频生成与潜在扩散模型。arXiv 2023.10 [论文] [代码]
  • [GAIA-1] GAIA-1:自动驾驶生成式世界模型。arXiv 2023.9 [论文]
  • [ADriver-I] ADriver-I:自动驾驶通用世界模型。arXiv 2023.9 [论文]
  • [UniWorld] UniWorld:通过世界模型进行自动驾驶预训练。arXiv 2023.8 [论文] [代码]

2022

  • [MILE] 用于城市驾驶的基于模型的模仿学习。NeurIPS 2022 [论文] [代码]
  • [Iso-Dream] Iso-Dream:在世界模型中隔离和利用不可控的视觉动态。NeurIPS 2022 Spotlight [论文] [代码]
  • [Symphony] Symphony:学习自动驾驶模拟中的真实和多样化代理。ICRA 2022 [论文]
  • 用于自动驾驶规划的分层基于模型的模仿学习。IROS 2022 [论文]
  • [SEM2] 通过语义掩蔽世界模型提高端到端城市自动驾驶的样本效率和鲁棒性。NeurIPS 2022 workshop [论文]

其他世界模型论文

2024

  • [LLM-Sim] 语言模型能否作为基于文本的世界模拟器?ACL [论文] [代码]
  • [Δ-IRIS] 具有上下文感知标记化的高效世界模型。ICML 2024 [论文] [代码]
  • [AD3] AD3:隐式动作是世界模型区分多样视觉干扰的关键。ICML 2024 [论文]
  • [Hieros] Hieros:基于结构化状态空间序列世界模型的分层想象。ICML 2024 [论文]
  • [HRSSM] 学习世界模型的潜在动态鲁棒表示。ICML 2024 [论文] [代码]
  • [HarmonyDream] HarmonyDream:世界模型内的任务协调。ICML 2024 [论文] [代码]
  • [REM] 通过并行观察预测改进基于标记的世界模型。ICML 2024 [论文] [代码]
  • Transformer世界模型是否提供更好的策略梯度?ICML 2024 [论文]
  • [TD-MPC2] TD-MPC2:可扩展、鲁棒的连续控制世界模型。ICLR 2024 [论文] [Torch代码]
  • [DreamSmooth] DreamSmooth:通过奖励平滑改进基于模型的强化学习。ICLR 2024 [论文]
  • [R2I] 用世界模型掌握记忆任务。ICLR 2024 [论文] [JAX代码]
  • [MAMBA] MAMBA:元强化学习的有效世界模型方法。ICLR 2024 [论文] [代码]
  • [UrbanWorld] UrbanWorld:用于3D城市生成的城市世界模型。arXiv 2024.7 [论文]
  • [PWM] PWM:使用大型世界模型进行策略学习。arXiv 2024.7 [论文] [代码]
  • [预测与行动] 预测与行动:世界建模与代理建模之间的权衡。arXiv 2024.7 [论文]
  • [GenRL] 用于通用具身代理的多模态基础世界模型。arXiv 2024.6 [论文] [代码]
  • [DLLM] 带有大型语言模型提示的世界模型用于目标实现。arXiv 2024.6 [论文]
  • 语言模型的认知地图:通过口头表达世界模型进行最优规划。arXiv 2024.6 [论文]
  • [CityBench] CityBench:评估大型语言模型作为世界模型的能力。arXiv 2024.6 [论文] [代码]
  • [CoDreamer] CoDreamer:基于通信的分散世界模型。arXiv 2024.6 [论文]
  • [EBWM] 具有认知启发的基于能量的世界模型。arXiv 2024.6 [论文]
  • 评估生成模型中隐含的世界模型。arXiv 2024.6 [论文] [代码]
  • 用于物理世界建模的Transformer和槽编码的样本高效方法。arXiv 2024.5 [论文] [代码]
  • [Puppeteer] 作为视觉全身人形机器人控制器的分层世界模型。arXiv 2024.5 Yann LeCun [论文] [代码]
  • [BWArea模型] BWArea模型:学习用于可控语言生成的世界模型、逆动力学和策略。arXiv 2024.5 [论文]
  • [Pandora] Pandora:面向具有自然语言动作和视频状态的通用世界模型。[论文] [代码]
  • [WKM] 具有世界知识模型的代理规划。arXiv 2024.5 [论文] [代码]
  • [Diamond] 用于世界建模的扩散:Atari中视觉细节很重要。arXiv 2024.5 [论文] [代码]
  • [Newton] Newton™ – 首个理解物理世界的基础模型。Archetype AI [博客]
  • [竞争与组合] 竞争与组合:学习模块化世界模型的独立机制。arXiv 2024.4 [论文]
  • [MagicTime] MagicTime:作为变形模拟器的延时视频生成模型。arXiv 2024.4 [论文] [代码]
  • [梦想多个世界] 梦想多个世界:学习上下文世界模型有助于零样本泛化。arXiv 2024.3 [论文] [代码]
  • [ManiGaussian] ManiGaussian:用于多任务机器人操作的动态高斯溅射。arXiv 2024.3 [论文] [代码]
  • [V-JEPA] V-JEPA:视频联合嵌入预测架构。Meta AI [博客] [论文] [代码]
  • [IWM] 学习和利用视觉表示学习中的世界模型。Meta AI [论文]
  • [Genie] Genie:生成式交互环境。DeepMind [论文] [博客]
  • [Sora] 作为世界模拟器的视频生成模型。OpenAI [技术报告]
  • [LWM] 基于百万长度视频和语言的世界模型与RingAttention。arXiv 2024.2 [论文] [代码]
  • 使用世界模型集成进行规划。OpenReview [论文]
  • [WorldDreamer] WorldDreamer:通过预测掩码标记实现通用世界模型的视频生成。arXiv 2024.1 [论文] [代码]

2023年

  • [IRIS] 变换器是高效样本的世界模型。ICLR 2023 口头报告 [论文] [Torch代码]
  • [STORM] STORM:用于强化学习的高效随机变换器世界模型。NIPS 2023 [论文] [Torch代码]
  • [TWM] 基于变换器的世界模型对10万次交互就很满意。ICLR 2023 [论文] [Torch代码]
  • [Dynalang] 学习用语言建模世界。arXiv 2023.8 [论文] [JAX代码]
  • [CoWorld] 将离线强化学习变为在线:用于离线视觉强化学习的协作世界模型。arXiv 2023.5 [论文]
  • [DreamerV3] 用离散世界模型掌控雅达利游戏。arXiv 2023.1 [论文] [JAX代码] [Torch代码]

2022年

  • [TD-MPC] 用于模型预测控制的时间差分学习。ICML 2022 [论文][Torch代码]
  • [DreamerPro] DreamerPro:无需重建的基于模型的强化学习与原型表示。ICML 2022 [论文] [TF代码]
  • [DayDreamer] DayDreamer:用于物理机器人学习的世界模型。CoRL 2022 [论文] [TF代码]
  • 从像素进行深层次规划。NIPS 2022 [论文] [TF代码]
  • [Iso-Dream] Iso-Dream:在世界模型中隔离和利用不可控的视觉动态。NIPS 2022 聚焦 [论文] [Torch代码]
  • [DreamingV2] DreamingV2:无需重建的离散世界模型强化学习。arXiv 2022.3 [论文]

2021年

  • [DreamerV2] 用离散世界模型掌控雅达利游戏。ICLR 2021 [论文] [TF代码] [Torch代码]
  • [Dreaming] Dreaming:通过潜在想象实现无重建的基于模型的强化学习。ICRA 2021 [论文]

2020年

2018年

  • 世界模型。NIPS 2018 口头报告 [论文]
项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号