RSS 2025｜击败Transformer！斯坦福新作：生成模型赋能自动驾驶预测，推理速度提升3倍！-CSDN博客

本文链接：https://blog.csdn.net/soaring_casia/article/details/149205591

在自动驾驶场景中，想要预测环境未来的变化，很多方法只能给出单一的确定性结果。然而，现实世界充满不确定性：行人可能突然转弯，前车也可能突然变道。如何让自动驾驶系统提前考虑到这些潜在变化呢？

这篇来自斯坦福的最新研究，提出了一种全新的自监督多未来占据预测框架（LOPR），能基于激光雷达占据网格图（L-OGM）高效生成多样化的未来场景。与传统方法只输出唯一预测不同，LOPR 在低维潜在空间中“想象”出多种合理的未来演化，并通过基于 Transformer 的推理网络生成丰富的结果。这样，自动驾驶就能在规划时同时考虑多种可能，显著提升安全性。

更令人印象深刻的是，这种方法不仅生成的未来场景更合理，还比以往依赖离散序列的 Transformer 快了数倍，足以在实时系统中部署。未来他们还计划将该框架拓展到 3D 预测，用于遮挡推理与路径规划。

论文出处：RSS2025

论文标题：Self-supervised Multi-future Occupancy Forecastingfor Autonomous Driving

论文作者：Bernard Lange, Masha Itkina, Jiachen Li, Mykel J. Kochenderfer

论文地址：

https://www.roboticsproceedings.org/rss21/p003.pdf

在城市环境中，准确的环境预测算法对于自动驾驶车辆（AV）的安全导航至关重要。经验丰富的人类驾驶员能够理解场景语义，并通过识别其他交通参与者的意图来预测其未来轨迹，从而安全地驶向目的地。为了在自动驾驶系统中复现这一过程，已有大量环境预测方法被提出，采用了不同的场景表示形式和建模假设。

当今的自动驾驶技术栈通常由专家设计和基于学习的模块混合构成，如三维物体检测、追踪、运动预测和规划等，每个模块都是独立开发的。对于学习系统而言，其开发往往依赖于由人工标注者或其他感知系统提供的精心标注数据。在进行环境推理时，常用的做法是基于对象的预测算法，这类方法依赖感知系统先将场景转化为矢量化表示，明确刻画代理体及环境特征。然而，这种方法存在多方面的局限。

首先，这类方法通常只为每个单独代理生成边缘化的未来轨迹，而无法对场景中多代理间的交互进行整体预测，这在与规划模块集成时会带来更大复杂性。其次，它们未能直接利用传感器观测，而是完全依赖对象检测算法，而这些算法在感知条件不理想时可能失败。第三，依赖于来自人工标注者和感知系统的标签数据，既限制了数据集的规模，也导致更高的开发成本。这些缺点使得自动驾驶系统在遇到未见过的场景时容易发生级联错误，并表现出较差的泛化能力。因此，这突显了对无需依赖容易出错且昂贵标注流程的补充性环境建模方法的需求。

为应对上述挑战，近年来基于 LiDAR 测量生成的占据网格图（L-OGM）作为预测场景表示形式逐渐受到青睐。这种方法受欢迎的原因在于：几乎不需要数据预处理，避免了人工标注；能够对包含任意数量代理体的场景进行联合预测；并且在部分可观测或检测失败的情况下也具有较强的鲁棒性。本文重点研究使用基于不确定性感知的占据状态估计方法生成的自车坐标系下的 L-OGM 预测。

由于其良好的通用性以及与无标签数据天然适配的特性，作者认为，基于 L-OGM 的预测方法与 RGB 视频预测类似，具备成为自动驾驶自监督预训练目标，即“自动驾驶基础模型”的潜力。

通常，L-OGM 预测被表述为自监督序列到序列学习问题。以往的方法大多采用基于 ConvLSTM 的架构，这是因为它们擅长处理时空序列。然而，这些方法在网格单元空间中进行端到端优化，既未显式建模场景中的随机性，也未有效利用车辆周围可用的多模态数据（如 RGB 摄像头、地图以及规划轨迹）。因此，常常会产生不真实且模糊的预测结果。

为克服这些局限，本文提出了一种基于生成模型潜在空间的随机 L-OGM 预测框架。生成模型因其能提供压缩表示并生成高质量样本而广受青睐。借助生成模型，可以减少冗余表示，使预测网络将计算资源集中于任务最关键的部分。虽然基于向量量化的变分模型结合自回归 Transformer 已在多个领域获得显著成功，但它通常需要大量离散 token 来有效刻画任务，从而导致推理时间增加。在本文中，作者采用了更低维的连续表示，以实现实时性能。

在针对 L-OGM 训练的潜在空间中，作者提出了基于自回归 Transformer 的架构，包括两个在每个时间步依次调用的模块：一个变分模块，用于建模场景的不确定性；一个确定性模块，用于预测下一个时间步。两者均基于过去的 L-OGM 编码及其他可用模态（如摄像头图像、地图及规划轨迹）进行条件化。预测通过单步解码器逐帧解码，提供实时高质量预测；还可以使用基于扩散的批量解码器对输出进行细化，以解决单步解码器的时间一致性问题并缓解压缩损失，代价是牺牲实时性。

在 nuScenes 和 Waymo Open Dataset 上的实验表明，该方法在定量和定性上均超越以往方法，包括近期基于离散 Transformer 的最先进方法。所提出的框架不仅能够预测多样化的未来场景，还能推断未观测到的代理体。此外，通过融合其他传感器模态，例如通过摄像头观察到 L-OGM 视野范围之外的来车，也进一步提高了预测准确性。

本文的主要贡献包括：

● 提出 Latent Occupancy PRediction（LOPR）框架，实现了基于生成模型潜在空间、可结合多模态（如 RGB 摄像头、地图、规划轨迹）条件输入的随机 L-OGM 预测。

● 设计了一种基于变分的 Transformer 模型，在有效捕捉周围场景不确定性的同时保持实时可行。

● 定义了一种基于扩散的批量解码器，用以细化单帧解码器输出，解决时间一致性问题并减少压缩损失。

● 通过在 nuScenes 和 Waymo Open Dataset 上的实验，证明该方法超越了现有 L-OGM 预测方法，并强调了融合多模态输入带来的性能提升。

图1｜本文提出的LOPR是一种自监督的随机预测框架，能够在生成模型的潜在空间中预测占据网格图。该框架包含基于占据网格、图像、地图以及规划轨迹进行条件化的确定性和变分 Transformer 模块，可对整个场景预测多种合理的未来可能演化。

LOPR 框架概述

本文提出了一个用于多未来预测的自监督占据预测框架，称为 Latent Occupancy PRediction（LOPR），该框架在生成模型的连续潜在空间中进行随机占据预测，小编先来结合全文的Pipeline图做一个简单的概括，简单来说，这个框架大概可以概述为：

● 任务输入为以自车为坐标系的 2D 占据网格（L-OGM），每个网格单元编码了占据概率。

● 框架分为两步：

○ 首先通过 VAE-GAN 学习一个能有效表达场景的低维潜在空间。

○ 然后在该潜在空间中采用基于 Transformer 的自回归架构进行未来预测。

在推理阶段，每个时间步首先从一个变分 Transformer 中采样，然后传递给确定性 Transformer，以预测下一个潜在状态表示。预测过程基于过去的占据网格编码，并可以选择性地条件化于其他传感器信息（如 RGB 图像、地图和规划轨迹）。图像编码采用预训练的 DINOv2 模型。

图2｜LOPR 框架由传感器处理、随机推理和预测模块构成。传感器处理模块用于编码所有传感器模态。推理模块用于捕捉场景中的不确定性。在预测模块中，系统预测下一个时间步的 L-OGM 潜在表示。每个时间步，最新的预测结果会以自回归方式输入到推理和预测模块中©️【深蓝AI】编译

潜在空间的表示学习

编码器与解码器

在表示学习阶段，框架使用 β-VAE 和 GAN 的结合来学习占据网格的潜在表示：

● 给定一个输入，用编码器输出其低维潜在表示。

● 随后解码器将该表示重建，并以此恢复原始网格。

损失函数为：

● β-VAE 部分由重构损失（感知损失 + MSE）以及 KL 正则化项组成，用以鼓励潜在分布逼近高斯先验。

● GAN 部分则让解码器兼作生成器，与判别器进行对抗优化，确保生成的网格逼近真实分布。

最终的表示学习损失为两者之和。

潜在空间内的随机序列预测

在获得预训练好的潜在空间后，作者训练了一个自回归的随机序列预测网络，这个网络的作用为：给定历史观测潜在序列，输出潜在未来分布。为显式建模场景中的多模态不确定性，作者使用了一个小trick，就是引入额外随机变量。在训练阶段，利用后验推断网络从真实序列中采样；在测试阶段，则从先验网络中采样，实现对未来潜在状态的推断。优化目标为标准的变分下界，含 KL 散度以约束推断分布与先验的一致性。

单步与扩散批量解码器

单步解码

在推理中，默认使用单步解码器将每个潜在帧独立转换为重建网格。这种方式推理速度快，可用于实时系统。

批量扩散解码

为缓解潜在空间生成可能带来的时间一致性问题与压缩损失，作者引入了基于视频扩散模型（使用 3D-UNet）的批量解码器。该解码器以滑动窗口方式，针对多帧同时进行噪声还原，训练时最小化预测与真实噪声之间的 MSE，能够在代价换取下显著提升时间一致性和细节保真度。

图3｜基于 Vision Transformer 的 RGB 摄像头编码器：RGB 摄像头数据首先通过预训练的 DINOv2 主干网络进行处理，随后传入一系列注意力层。这些注意力层在每个视角内部（图像层）、不同视角之间（空间层）以及所有观测时间步上（时间层）聚合信息。空间层和时间层还包含了可学习的位置嵌入，分别以 L-OGM 潜在表示和规划轨迹为条件进行建模

多模态输入条件化

LOPR 支持融合多种传感器输入以提高预测准确性：

● 地图：以自车坐标系下栅格化形式表示可行驶区域、停止线和人行横道。

● 规划轨迹：包含未来一系列时刻的位置 (x, y, z)，并归一化至自车中心。

● RGB 图像：使用来自 N 个摄像头的图像，通过预训练的 DINOv2 Backbone 提取特征后，经过注意力模块整合。

所有模态均通过自注意力机制集成到预测网络中，从而捕获场景的全局信息与自车意图。

本文的实验部分非常夯实，作者用了非常多的图及对应的图注来说明实验结果，主要分成四个部分，小编带各位读者一探究竟。

潜在空间分析

在下图4中，作者系统分析了表示学习阶段不同损失组合对潜在空间重建与预测性能的影响。他们发现：

● 单纯的自编码器在单帧重建与短期预测上效果很好，但在长预测范围下性能显著下降。

● 加入 KL 正则化与对抗损失（GAN）虽然降低了单帧重建精度，却大幅提升了长期预测能力，这也符合该研究以长期场景预测为主要目标的需求。

● 当使用所有数据增强手段后，整体性能在所有指标上均得到进一步改善。

图 5 展示了随机选择的 L-OGM 及其重建结果，表明所用的编码-解码架构能够有效保留场景结构

图4｜不同学习目标对重建和预测性能的影响。采用 KL 正则化和对抗损失（Adv）的 VAE-GAN 在长预测范围上表现最佳

图5｜作者的编码-解码器能够有效地重建 L-OGMs，其 IS 分数反映了占据单元分布的差异（例如 IS 分别为 2.13 和 3.69）。在少数情况下（例如场景中存在大量代理体且伴随旋转，IS=5.04），可能会丢失一些细节。图中白色表示被占据的单元格，黑色表示自由空间，灰度则表示介于 0 与 1 之间的概率值

不同条件输入模态的影响

作者还研究了引入规划轨迹、地图以及摄像头观测这些额外输入模态的效果：

● 在图6的结果表明，这些模态显著提高了模型理解环境以及自车意图的能力。

● 系统不仅能准确推断道路布局和停放车辆等静态元素，还能从摄像头观测中补充预测 L-OGM 范围外的动态物体（如迎面驶来的车辆），如图7所示。

当所有模态共同使用时，性能最佳。此外，还观察到基于 DINO 的摄像头模块在确定性占据预测任务中进一步提升了表现

图6｜轨迹、地图和摄像头这些输入模态对预测性能的影响。带“∗”符号表示该摄像头模块未在确定性任务上进行微调。所有模型均训练了 40 个周期

图7｜重建结果可视化

基于扩散的解码器

● 生成模型的潜在空间推理通常面临时间一致性差和信息压缩损失的问题。为此，作者引入了基于视频扩散的批量解码器来细化输出：

● 虽然单步解码器在 3–38 Hz 的范围内可实现全序列预测，适合实时部署，但使用扩散解码器则需要数分钟推理一次序列，暂时无法满足实时应用需求。

实时可行性分析

图8报告了在 NVIDIA L40 上完整生成 15 帧预测所需的频率及 CUDA 内存开销：

● 使用单步解码器的 LOPR 在无额外模态输入时可达 11.91 Hz，在使用所有模态时仍可达 9.09 Hz。

● 作为对比，OccWorld2D（采用离散 VQ-VAE 潜在空间和定制 Transformer 加速推理）仅能达到 3.00 Hz。

● 更早期的 vanilla Transformer，在类似大小的离散潜在空间和预测范围下，需要约 30 秒生成单次预测，远低于实用需求。

图8｜实时性评估结果

实验结果分析总结

最后做一个实验的总结，与现有方法相比，LOPR 在多方面实现了显著改进：

● 大多数基线模型专为网格单元空间的确定性预测任务设计，并未考虑场景中运动的不确定性，也未充分利用可用的多模态信息。

● 因此，这些方法常在预测序列中逐步丢失重要细节，导致运动物体逐渐“消失”，虽然在短期预测中能维持较好的 IS（Inception Score），但长期预测会迅速退化。

● 作者展示了他们框架在相同条件下（仅使用 L-OGM）就已超越所有确定性基线；在进一步加入多未来推理、更多语义条件以及扩散解码后，性能优势更加明显。

● 他们的方法甚至超越了现有在语义占据预测领域采用定制 Transformer 的最新工作，这表明相比常见的离散 codebook Transformer，本文提出的基于连续潜在空间的方案在推理开销与精度间取得了更优平衡。

在本文中，作者提出了一种自监督的 L-OGM 预测框架，能够捕捉场景中的随机性，并基于自动驾驶车辆可用的多模态观测信息进行条件化。LOPR 框架包含一个基于 VAE-GAN 的生成模型，用于学习具有丰富表达能力的低维潜在空间，同时引入了一个在该连续潜在空间上进行操作的基于 Transformer 的随机预测网络。

实验结果表明，LOPR 无论在定性还是定量评估中均超越了所有现有方法，同时保持了实时可用性。此外，与常用的基于离散表示的 Transformer 方法相比，该方法在推理速度上显著更快，性能也更优。本文还特别强调了引入轨迹、地图和摄像头等多模态条件输入的优势，这进一步增强了框架的预测能力。

此外，作者还通过扩展引入基于扩散的解码器，有效缓解了时间一致性问题并减少了压缩损失，尽管这在实时性上带来了一定折衷。未来工作中，作者计划将 LOPR 拓展至 3D 占据预测，并将其应用于其他任务，例如遮挡推理和路径规划。