ChatSim：基于LLM-Agent协作的自动驾驶可编辑场景仿真

ChatSim：开创自动驾驶场景仿真新范式

自动驾驶技术的快速发展为交通出行带来了革命性的变革，但如何高效地测试和验证自动驾驶系统的性能和安全性仍然是一个巨大的挑战。传统的道路测试方法成本高昂、耗时长久，且难以覆盖所有可能的场景。因此,场景仿真技术应运而生，成为了自动驾驶研发中不可或缺的环节。然而，现有的可编辑场景仿真方法在用户交互效率、多摄像头照片级渲染以及外部数字资产集成等方面仍存在诸多限制。为了解决这些问题，来自上海交通大学、上海人工智能实验室、卡内基梅隆大学和清华大学的研究团队提出了一种全新的自动驾驶场景仿真系统——ChatSim。

ChatSim的创新之处

ChatSim是第一个能够通过自然语言命令实现可编辑的照片级真实3D驾驶场景仿真的系统，它具有以下几个突出特点：

高度灵活的编辑能力：ChatSim采用了大语言模型(LLM)代理协作框架，使用户能够通过自然语言命令轻松地编辑复杂的驾驶场景。
照片级真实渲染：系统采用了创新的多摄像头神经辐射场方法，能够生成高度逼真的场景视频。
外部资产无缝集成：ChatSim引入了新颖的多摄像头光照估计方法，实现了外部3D模型与场景的一致性渲染。

系统架构与工作流程

ChatSim的核心是一个基于LLM的多代理协作框架。这个框架模拟了人类团队的工作方式，将复杂的仿真需求分解为具体的编辑任务。主要包括以下几个关键代理：

指挥代理(Commander Agent)：负责理解用户的自然语言命令，并将其转化为具体的任务指令。
场景代理(Scene Agent)：负责维护和更新场景状态，确保所有编辑操作的一致性。
运动代理(Motion Agent)：生成物体的运动轨迹，确保运动的合理性和真实性。
渲染代理(Rendering Agent)：负责生成最终的照片级真实场景视频。

这种多代理协作的方式不仅提高了仿真的效率，还大大增强了系统处理复杂场景和抽象命令的能力。

核心技术亮点

背景渲染技术

ChatSim引入了一种创新的多摄像头辐射场方法，以解决自动驾驶车辆周围摄像头存在的姿态不准确和曝光不一致问题。这种方法能够渲染出亮度一致的超广角图像，为场景仿真提供了高质量的背景。

前景渲染技术

系统采用了新颖的多摄像头光照估计方法。通过预测环境光照，ChatSim能够使用Blender渲染出与场景一致的前景物体，实现了外部3D模型与真实场景的无缝融合。

轨迹生成与优化

为了生成更加平滑和真实的物体轨迹，ChatSim集成了一个可选的轨迹跟踪模块。这个模块基于深度强化学习，能够对初始轨迹进行优化，使得物体的运动更加自然流畅。

实验结果与应用前景

研究团队在Waymo开放数据集上进行了大量实验，结果表明ChatSim能够处理复杂的语言命令，并生成相应的照片级真实场景视频。以下是几个典型的应用案例：

抽象命令处理：用户只需输入"制造一个交通堵塞"这样简单的命令，ChatSim就能理解意图并生成相应的复杂场景。
复杂场景编辑："移除场景中的所有汽车，添加一辆保时捷向我快速驶来，同时添加一辆警车在后方追赶。视角向前移动5米，向上提升0.5米。"ChatSim能够精确执行这样复杂的多步骤编辑命令。
多轮交互编辑：系统支持用户通过多轮对话逐步完善场景。例如，用户可以先添加一辆车，然后修改其行驶方向，再添加其他车辆，ChatSim能够在保持场景一致性的同时，逐步实现用户的需求。

Image 1: teaser

技术细节与实现

环境配置

ChatSim的运行环境要求如下：

Ubuntu版本 >= 20.04（用于运行Blender 3.+）
Python >= 3.8
Pytorch >= 1.13
CUDA >= 11.6
COLMAP或Metashape软件（用于相机姿态校准，非必需）
OpenAI API密钥（也可使用NVIDIA AI提供的免费API）

系统安装

ChatSim的安装过程包括以下几个主要步骤：

环境设置
背景渲染引擎安装（McNeRF或3D Gaussian Splatting）
图像修复工具安装
Blender软件及相关工具安装
轨迹跟踪模块安装（可选）
光照估计模块安装（可选）

数据准备

ChatSim使用Waymo开放数据集进行训练和测试。主要的数据准备步骤包括：

下载并提取Waymo数据
重新校准Waymo数据（提供了预校准的文件，也可自行校准）
下载Blender 3D资产
下载天空球HDRI数据

训练与仿真

用户可以选择训练McNeRF或3D Gaussian Splatting作为背景渲染引擎。训练完成后，可以通过简单的命令行指令启动仿真过程：

python main.py -y ${CONFIG YAML} -p "${PROMPT}" [-s ${SIMULATION NAME}]

其中，${CONFIG YAML}指定场景信息，${PROMPT}是用户的输入提示，${SIMULATION NAME}决定保存结果的文件夹名称。

未来展望

ChatSim的出现为自动驾驶场景仿真领域带来了新的可能性。它不仅提高了仿真的效率和灵活性，还为自动驾驶系统的测试和验证提供了更加丰富和真实的场景。未来，研究团队计划进一步完善系统功能，包括：

发布arXiv论文，公开代码和模型。
集成运动跟踪模块，进一步提升轨迹的平滑度和真实性。
开发多轮对话的包装代码，提升用户交互体验。

随着这些改进的实现，ChatSim有望成为自动驾驶研发中不可或缺的工具，加速自动驾驶技术的发展和落地。

结语

ChatSim的诞生标志着自动驾驶场景仿真技术迈入了一个新的阶段。通过结合大语言模型、计算机视觉和3D渲染技术，ChatSim为自动驾驶研究人员和工程师提供了一个强大而灵活的工具，使他们能够更加高效地设计、测试和优化自动驾驶系统。随着技术的不断完善和应用范围的扩大，ChatSim将为推动自动驾驶技术的进步做出重要贡献，为未来更安全、更智能的交通系统铺平道路。