这篇文章的核心内容是提出了一种基于潜在世界模型(LAW)的自监督学习方法,用于提升端到端自动驾驶中的场景特征表示和轨迹预测能力。以下是文章的主要研究内容概括:
研究背景与动机
-
端到端自动驾驶的优势:与传统规划器相比,端到端规划器直接利用原始传感器数据,能够提取更丰富的场景特征,减少信息损失。
-
研究问题:如何开发更有效的场景特征表示,以充分利用传感器数据的丰富性。
-
自监督学习的启发:自监督学习在自然语言处理(NLP)和计算机视觉中取得了成功,尤其是在处理大规模数据集时。作者希望将这种成功应用到自动驾驶领域。
提出的方法:潜在世界模型(LAW)
-
LAW的核心思想:基于当前场景特征和自我轨迹预测未来的场景特征。这种自监督任务可以无缝集成到无感知和基于感知的框架中。
-
无感知框架:直接利用原始传感器数据进行轨迹预测,不依赖于感知任务的注释。
-
基于感知的框架:结合感知任务(如检测、跟踪、地图分割)来指导场景特征学习。
-
LAW的普适性:能够适应两种框架,预测透视视图特征或BEV特征。
方法细节
-
视觉潜在特征提取:通过视觉编码器从图像中提取场景特征。
-
行为感知潜在特征构建:将视觉潜在特征与预测的轨迹结合,形成行为感知潜在特征。
-
未来潜在特征预测:利用潜在世界模型预测未来的场景潜在特征。
-
监督学习:使用未来帧的真实特征对预测的潜在特征进行监督,优化当前场景特征学习和轨迹预测。
实验与结果
-
基准测试:在nuScenes、NAVSIM和CARLA等数据集上进行了广泛的实验。
-
性能表现:在多个基准测试中实现了最先进的性能,证明了LAW的有效性。
-
消融研究:验证了潜在世界模型在不同设置下的有效性,包括不同的时间范围和网络架构。
关键结论
-
自监督学习的潜力:通过自监督学习,可以显著提升端到端自动驾驶的性能。
-
LAW的普适性:LAW能够适应不同的自动驾驶框架,展示了其在多种场景下的适用性。
-
未来工作的方向:尽管取得了显著进展,但仍有进一步优化的空间,例如探索更复杂的时间模型或结合其他自监督任务。
文章通过引入潜在世界模型(LAW),为端到端自动驾驶提供了一种新的自监督学习方法,显著提升了场景特征表示和轨迹预测的性能。这种方法不仅在多个基准测试中取得了最先进的结果,还展示了其在不同自动驾驶框架中的普适性。这里是自己的论文阅读记录,感兴趣的话可以参考一下,如果需要阅读原文的话可以看这里,如下所示:
官方项目地址在这里,如下所示:
摘要
在自动驾驶中,端到端规划器直接利用原始传感器数据,使其能够提取更丰富的场景特征,并减少与传统规划器相比的信息损失。这引发了一个关键的研究问题:我们如何开发更好的场景特征表示,以充分利用端到端驾驶中的传感器数据?自监督学习方法在自然语言处理(NLP)和计算机视觉中成功地学习了丰富的特征表示。受此启发,我们提出了一种新颖的自监督学习方法,使用潜在世界模型(LAW)用于端到端驾驶。LAW基于当前特征和自我轨迹预测未来的场景特征。这种自监督任务可以无缝集成到无感知和基于感知的框架中,提升场景特征学习并优化轨迹预测。LAW在多个基准测试中实现了最先进的性能,包括真实世界的开环基准nuScenes、NAVSIM和基于模拟器的闭环基准CARLA。
1 引言
端到端规划器因其与传统规划器相比的独特优势而受到广泛关注。传统规划器依赖于感知模块的预处理输出,例如边界框和轨迹。相比之下,端到端规划器直接利用原始传感器数据提取场景特征,最大限度地减少信息损失。这种直接使用传感器数据的方式引发了以下重要研究问题:我们如何开发更有效的场景特征表示,以充分利用端到端驾驶中传感器数据的丰富性?
近年来,自监督学习作为一种强大的方法,用于从大规模数据集中提取全面的特征表示,尤其在自然语言处理(NLP)和计算机视觉领域取得了显著进展。基于这些成功经验,我们希望通过自监督学习丰富场景特征学习,进一步提升端到端驾驶性能。传统的计算机视觉自监督方法(He et al., 2022; Chen et al., 2020b)通常关注静态的单帧图像。然而,自动驾驶依赖于连续的视频输入,因此有效利用时间数据至关重要。时间自监督任务,例如未来预测(Han et al., 2019; 2020),显示出潜力。传统的未来预测任务通常忽略了自我行为的影响,而在自动驾驶中,自我行为对未来起着至关重要的作用。
鉴于自我行为的关键作用,我们提出利用世界模型基于当前状态和自我行为预测未来状态。尽管已经存在一些基于图像的驾驶世界模型(Wang et al., 2023b; Hu et al., 2023a; Jia et al., 2023a),但它们在增强场景特征表示方面存在效率问题,因为它们依赖于扩散模型,这些模型可能需要数秒时间来生成未来场景的图像。为解决这一限制,我们引入了一种潜在世界模型,旨在直接从当前潜在特征和自我行为预测未来的潜在特征,如图1所示。具体而言,给定图像后,视觉编码器提取场景特征(当前状态),然后输入到行为解码器中以预测自我轨迹。基于当前状态和行为,潜在世界模型预测未来帧的场景特征。在训练期间,使用从未来帧提取的特征对预测的未来特征进行监督。通过监督预测的未来特征,这种自监督方法联合优化了当前场景特征学习和自我轨迹预测。
在介绍了潜在世界模型的概念之后,我们将注意力转向其在各种端到端自动驾驶框架中的普适性。在端到端自动驾驶中,框架通常可以分为两类:无感知方法和基于感知的方法。无感知方法(Toromanoff et al., 2020; Chen et al., 2020a; Wu et al., 2022)绕过显式感知任务,仅依赖于轨迹监督。这类方法的早期工作(Wu et al., 2022)通常提取透视视图特征以预测未来轨迹。相比之下,基于感知的方法(Prakash et al., 2021; Hu et al., 2022c; Jiang et al., 2023; Hu et al., 2022b)纳入感知任务,例如检测、跟踪和地图分割,以指导场景特征学习。这些方法通常使用鸟瞰图(BEV)特征图作为这些感知任务的统一表示。我们的潜在世界模型适用于这两种框架。它可以预测无感知设置中的透视视图特征,也可以预测基于感知设置中的BEV特征,展示了其在不同自动驾驶范式中的普适性。
实验表明,我们的潜在世界模型在无感知和基于感知的框架中均提升了性能。此外,我们在多个基准测试中实现了最先进的性能,包括真实世界的开环数据集nuScenes(Caesar et al., 2020)和NAVSIM(Dauner et al., 2024)(基于nuPlan(Caesar et al., 2021)),以及基于模拟器的闭环CARLA基准测试(Dosovitskiy et al., 2017)。这些结果强调了我们方法的有效性,并突出了自监督学习在推进端到端自动驾驶研究中的潜力。总结来说,我们的贡献有三点:
-
通过潜在世界模型进行未来预测:我们引入了潜在世界模型(LAW),用于从当前场景潜在特征和自我轨迹预测未来的场景潜在特征。这种自监督任务联合增强了端到端驾驶中的场景表示学习和轨迹预测。
-
跨框架普适性:LAW展示了在各种常见自动驾驶范式中的普适性。它可以预测无感知框架中的透视视图特征,也可以预测基于感知框架中的BEV特征。
-
最先进的性能:我们的自监督方法在真实世界的开环nuScenes、NAVSIM和基于模拟器的闭环CARLA基准测试中实现了最先进的结果。
2 相关工作
2.1 端到端自动驾驶
我们将端到端自动驾驶方法(Hu et al., 2022c; Jiang et al., 2023; Renz et al., 2022; Toromanoff et al., 2020; Tian et al., 2024; Hwang et al., 2024; Pan et al., 2024; Wang et al., 2024a;b)分为两类,感知基础方法和感知自由方法,取决于是否执行感知任务。感知基础方法(Casas et al., 2021; Prakash et al., 2021; Jaeger et al., 2023; Shao et al., 2023; Hu et al., 2022b; Sadat et al., 2020)同时执行多个感知任务,例如检测(Li et al., 2022b; Huang et al., 2021; Li et al., 2022a; 2024a)、跟踪(Zhou et al., 2020; Wang et al., 2021)、地图分割(Hu et al., 2022c; Jiang et al., 2023)和占据预测(Wang et al., 2023a; Huang et al., 2023)。其中,UniAD(Hu et al., 2022c)集成了多个模块以支持目标驱动的规划。VAD(Jiang et al., 2023)探索了用于规划目的的矢量化场景表示。
无感知的端到端方法(Toromanoff et al., 2020; Chen et al., 2020a; Zhang et al., 2021; Wu et al., 2022)展现了有希望的发展方向,因为它们避免了使用大量的感知注释。早期的无感知端到端方法(Zhang et al., 2021; Toromanoff et al., 2020)主要依赖于强化学习。例如,MaRLn(Toromanoff et al., 2020)设计了一种基于隐式能力的强化学习算法,而LBC(Chen et al., 2020a)使用特权(真实感知)信息训练强化学习专家。利用强化学习专家生成的轨迹数据,TCP(Wu et al., 2022)结合了轨迹航点分支和直接控制分支,取得了良好的性能。然而,无感知的端到端方法通常存在场景表示能力不足的问题。我们的工作旨在通过潜在世界模型解决这一问题。
2.2 自动驾驶中的世界模型
现有的自动驾驶世界模型可以分为两类:基于图像的世界模型和基于占据的世界模型。基于图像的世界模型(Hu et al., 2022a; Wang et al., 2023b; Hu et al., 2023a)旨在通过生成方法丰富自动驾驶数据集。GAIA-1(Hu et al., 2023a)是一种生成式世界模型,利用视频、文本和行为输入创建逼真的驾驶场景。MILE(Hu et al., 2022a)利用三维几何作为归纳偏差生成城市驾驶视频。Drive-WM(Wang et al., 2023b)利用扩散模型预测未来图像,然后基于这些预测图像进行规划。Copilot4D(Zhang et al., 2023)使用VQVAE(Van Den Oord et al., 2017)对传感器观测进行标记化,然后通过离散扩散预测未来。另一类是基于占据的世界模型(Zheng et al., 2023; Min et al., 2024)。OccWorld(Zheng et al., 2023)和DriveWorld(Min et al., 2024)使用世界模型预测占据,这需要占据注释。相比之下,我们提出的潜在世界模型不需要人工注释。
3 基础知识
3.1 基于视觉的端到端自动驾驶
3.2 世界模型
4 方法论
我们的方法由三个关键部分组成:i)潜在世界模型:我们利用潜在世界模型实现自监督任务。该模型接受两个输入:视觉编码器提取的潜在特征和航点解码器预测的航点。此任务兼容两种常见框架。ii)无感知框架与透视视图潜在特征:它包括该框架内的透视视图编码器和无感知解码器。iii)基于感知的框架与BEV潜在特征:它包含该框架内的BEV编码器和基于感知的解码器。
4.1 潜在世界模型
在本节中,我们利用潜在世界模型基于当前视觉潜在特征和航点预测未来帧的视觉潜在特征。
视觉潜在特征和航点提取:视觉编码器处理当前时间步t的图像,以产生相应的视觉潜在特征集合
其中[⋅,⋅]表示拼接操作。完整的行为感知潜在特征集合表示为 ,其中 L 表示特征向量的数量。
潜在世界模型兼容无感知和基于感知的两种框架。接下来,我们将详细介绍这两种框架的实现。
4.2 无感知框架与透视视图潜在特征
首先,我们介绍无感知框架。以往的无感知框架(Wu et al., 2022)通常使用透视视图编码器进行视觉潜在特征提取,以及无感知解码器进行航点预测。我们的框架在此基础上进行了扩展。
透视视图编码器:在透视视图编码器中,我们基于多视图图像生成视觉潜在特征。首先,使用图像主干网络处理多视图图像,以获得相应的图像特征。按照 PETR(Liu et al., 2022)的方法,我们为这些图像特征生成三维位置嵌入,并将其添加到图像特征中,以区分每个特征向量。经过增强的图像特征
4.3 基于感知的框架与 BEV 潜在特征
我们的潜在世界模型也兼容基于感知的框架,这些框架通常使用 BEV 特征图进行感知任务。我们遵循这一范式,基于感知的框架由两个关键部分组成:BEV 编码器和基于感知的解码器。BEV 编码器从图像中生成 BEV 特征图,而基于感知的解码器则利用这些特征图进行感知任务,例如运动预测和地图构建。最终的航点基于这些感知任务的输出进行预测。
5 实验
5.1 基准测试
nuScenes(Caesar et al., 2020):nuScenes 数据集包含 1000 个驾驶场景。按照以往的研究(Hu et al., 2022b; 2023b; Jiang et al., 2023),我们使用 L2 位移误差和碰撞率作为综合指标来评估规划性能。L2 位移误差衡量预测轨迹与真实轨迹之间的 L2 距离,而碰撞率则量化沿预测轨迹与其他物体发生碰撞的频率。
NAVSIM(Dauner et al., 2024):鉴于 nuScenes 数据集过于简单,我们在 NAVSIM 基准测试中进行了进一步的实验。NAVSIM 数据集(Dauner et al., 2024)基于 OpenScene(Contributors, 2023)构建,后者从 nuPlan 数据集(Caesar et al., 2021)中提取了 120 小时的驾驶日志。NAVSIM 通过对数据进行重新采样以减少简单场景(如直线驾驶)的发生频率,从而增强了 OpenScene。因此,在 NAVSIM 基准测试下,传统的自我状态建模变得不再适用。NAVSIM 使用预测驾驶员模型分数(PDMS)来评估模型性能,该分数基于以下五个因素计算:无责任碰撞(NC)、可行驶区域合规性(DAC)、时间至碰撞(TTC)、舒适性(Comf.)和自我进度(EP)。
CARLA(Dosovitskiy et al., 2017):闭环评估对于自动驾驶至关重要,因为它会根据驾驶动作不断更新传感器输入。对于闭环基准测试,我们使用 CARLA(Dosovitskiy et al., 2017)模拟器(版本 0.9.10.1)收集训练数据集,采用教师模型 Roach(Zhang et al., 2021),按照(Wu et al., 2022; Jia et al., 2023b)的方法收集,共收集到 189K 帧。我们使用广泛使用的 Town05 Long 基准测试(Jia et al., 2023b; Shao et al., 2022; Hu et al., 2022a)来评估闭环驾驶性能。指标方面,路线完成率(RC)表示自动驾驶模型完成路线的百分比。违规分数(IS)量化违规行为以及违反交通规则的次数。较高的违规分数表明对安全驾驶实践的更好遵守。驾驶分数(DS)是评估整体性能的主要指标,它是由路线完成率和违规分数的乘积计算得出的。
5.2 实现细节
nuScenes 基准测试:我们在 nuScenes 基准测试中实现了无感知和基于感知的两种框架。在无感知框架中,我们使用 Swin-Transformer-Tiny(Swin-T)(Liu et al., 2021)作为主干网络。输入图像被调整为 800×320 的大小。我们采用余弦退火学习率调度(Loshchilov & Hutter, 2016),起始学习率为 5e-5。模型使用 AdamW 优化器(Loshchilov & Hutter, 2017)进行训练,权重衰减为 0.01,批量大小为 8,并在 8 个 A6000 GPU 上训练 12 个周期。对于基于感知的框架,我们遵循 Jiang et al.(2023)的方法,分两个阶段进行训练。在第一阶段,我们仅使用感知损失训练编码器和感知头部,训练 48 个周期。在第二阶段,我们引入航点和潜在预测损失,再训练 12 个周期。潜在世界模型的网络架构使用可变形自注意力以改善收敛性。
NAVSIM 基准测试:我们在 NAVSIM 上实现了无感知框架。具体而言,我们采用 ResNet-34 作为主干网络,并按照 Prakash et al.(2021)的方法进行训练,训练 20 个周期以确保公平比较。输入图像被调整为 640×320 的大小。我们使用 Adam 优化器,学习率为 1e-4,批量大小为 32。
CARLA 基准测试:我们按照 Wu et al.(2022)的方法在 CARLA 上实现无感知框架。具体而言,我们使用 ResNet-34 作为主干网络,并采用 TCP 头部(Wu et al., 2022),如 Jia et al.(2023b)中所述。输入图像被调整为 900×256 的大小。我们使用 Adam 优化器,学习率为 1e-4,权重衰减为 1e-7。模型训练 60 个周期,批量大小为 128。在训练 30 个周期后,学习率减半。
5.3 与最新方法的比较
对于 nuScenes 基准测试,我们将我们提出的框架与多种最新方法进行了比较,包括 BEV-Planner(Li et al., 2024b)和 VAD(Jiang et al., 2023)。结果总结在表 1 中。我们的无感知框架表现出竞争力,而基于感知的框架在 L2 位移和碰撞率方面均实现了最先进的结果。对于 NAVSIM 基准测试,详细结果见表 2,我们的方法在总体 PDMS 方面实现了最先进的结果。对于 CARLA 基准测试,如表 3 所示,我们提出的方法超越了所有现有方法。值得注意的是,我们的无感知方法超越了以往的领先方法,例如 ThinkTwice(Jia et al., 2023c)和 DriveAdapter(Jia et al., 2023b),这些方法纳入了来自深度估计、语义分割和地图分割的广泛监督。
5.4 消融研究
除非另有说明,否则所有实验均在无感知框架中进行。
潜在世界模型的消融研究:在本消融研究中,我们评估了我们提出的潜在世界模型的有效性。对于 nuScenes 基准测试,结果如表 1 所示。我们在无感知和基于感知的框架中均对潜在预测任务进行了消融,并进一步研究了潜在世界模型的每个输入的贡献。研究结果表明,准确的未来潜在预测依赖于纳入驾驶行为,这支持了潜在世界模型的有效性。我们还在表 5 中展示了 NAVSIM 和 CARLA 的消融研究结果。在 NAVSIM 中,我们观察到 PDMS 有显著提升,主要得益于可行驶区域合规性(DAC)和自我进度(EP)指标的改进。这表明我们的自监督任务有效地提升了驾驶轨迹的质量。类似地,在 CARLA 中,我们观察到驾驶分数有显著提升。
潜在世界模型的时间范围:在本实验中,世界模型预测三个不同未来时间范围的潜在特征:0.5 秒、1.5 秒和 3.0 秒。这对应于 nuScenes 数据集中当前帧之后的第一、第三和第六个未来帧,因为关键帧每 0.5 秒出现一次。结果如表 6 所示,模型在 1.5 秒时间范围内的表现最佳。相比之下,0.5 秒时间间隔通常场景变化较小,提供的动态内容不足以提升特征学习。相反,3.0 秒时间间隔通常场景可能与当前帧显著不同,使得准确预测未来更具挑战性。此外,我们观察到预测 10 秒后的潜在特征完全削弱了世界模型带来的收益,表明预测过远未来的特征是无效的。这一结论与 MAE(He et al., 2022)中的观察结果一致,即过低和过高的掩码比率都会对网络的能力产生负面影响。
潜在世界模型的网络架构:为了验证潜在世界模型的网络架构的影响,我们进行了如表 7 所示的实验。首先,很明显,单层神经网络(线性投影)不足以履行世界模型的功能,导致性能显著下降。两层 MLP 显示出显著的性能提升。然而,它缺乏促进不同位置潜在向量之间交互的能力。因此,我们使用堆叠的 Transformer 块作为我们的默认网络架构,该架构在测试的架构中实现了最佳结果。这表明不同位置的特征向量之间的交互是重要的。
5.5 可视化
图 3 比较了基于感知设置的 LAW 与 VAD(Jiang et al., 2023)的结果。借助我们的潜在世界模型,我们的方法获得了更全面的场景表示。
6 结论
总之,我们提出了潜在世界模型,用于从当前特征和自我轨迹预测未来的特征,这是一种新颖的端到端自动驾驶自监督学习方法。这种方法联合增强了场景表示学习和自我轨迹预测。我们的方法展示了普适性,能够适应无感知和基于感知的两种框架,分别预测透视视图特征和 BEV 特征。我们在 nuScenes、NAVSIM 和 CARLA 等基准测试中实现了最先进的结果。