端到端SOTA！中山大学GaussianFusion：高斯建模让自动驾驶感知-规划一体化效率飙升~-CSDN博客

本文链接：https://blog.csdn.net/CV_Autobot/article/details/148622625

点击下方卡片，关注“自动驾驶之心”公众号

今天自动驾驶之心为大家分享中山大学最新的工作！GaussianFusion：基于高斯表征的多传感器融合端到端自动驾驶框架！如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心『端到端自动驾驶』技术交流群

论文作者 | Shuai Liu等

等编辑 | 自动驾驶之心

中山大学团队的工作，开闭环的效果都还不错。利用高斯表征和扩散端到端的方法结合在一起，最终效果比DiffusionDrive要好一些。

写在前面 & 笔者的个人理解

多传感器融合对于提高端到端自动驾驶系统的性能和鲁棒性至关重要。现有方法主要采用基于注意力的扁平化融合或通过几何变换的鸟瞰图融合。然而，这些方法通常在可解释性上有限或计算开销较大。本文中，我们介绍了GaussianFusion，这是一种基于高斯的端到端自动驾驶多传感器融合框架。我们的方法使用直观紧凑的高斯表示作为中间载体，以聚合来自不同传感器的信息。具体来说，我们在驾驶场景中均匀初始化一组二维高斯分布，每个高斯分布由物理属性参数化，并配备显性和隐性特征。这些高斯分布通过集成多模态特征逐步优化。显性特征捕捉交通场景的丰富语义和空间信息，而隐性特征则提供对轨迹规划有益的补充线索。为了充分利用高斯分布中的丰富空间和语义信息，我们设计了一个级联规划头，通过与高斯分布的交互迭代地精炼轨迹预测。在NAVSIM和Bench2Drive基准上的广泛实验表明了所提出的GaussianFusion框架的有效性和鲁棒性。

论文链接：https://arxiv.org/abs/2506.00034
开源代码：https://github.com/Say2L/GaussianFusion

引言

端到端（E2E）自动驾驶因其通过深度学习直接将传感器输入映射为驾驶动作的潜力而受到越来越多的关注。这一范式减少了系统复杂性，并实现了跨任务的联合优化。然而，仅依赖单一传感器往往限制了系统处理多样化和挑战性驾驶场景的能力。为了解决这一局限性，多传感器融合变得至关重要，因为它允许模型利用来自不同传感器（如摄像头、激光雷达和雷达）的互补信息。这种集成增强了感知的可靠性，并为学习稳健的驾驶策略提供了更丰富的输入。

在端到端自动驾驶中现有的多模态融合策略大致可分为两类：扁平化融合和鸟瞰图（BEV）融合。扁平化融合方法通常将传感器特征（如图像和激光雷达点云特征）压缩到一个共享的潜在空间中，在该空间中使用注意力机制进行特征交互，如图 1(a) 所示。这些方法因其灵活性和效率而具有吸引力，通常只需要最小的几何校准。然而，由于缺乏明确的空间定位在三维空间中的解释性有限，使得它们在需要精确空间推理的场景中效果不佳。

相比之下，BEV 融合方法将多模态特征投影到一个通用的 BEV 坐标系中，利用几何先验对齐来自不同传感器的数据，如图 1(b) 所示。这促进了结构化的空间理解，并提高了下游感知任务（如三维物体检测和地图构建）的性能。然而，由于 BEV 表示的密集性质，特别是当涉及高分辨率输入或细粒度特征时，BEV 融合会带来显著的计算和内存开销。因此，在复杂的驾驶环境中开发能够在空间感知、效率和可扩展性之间取得平衡的融合框架仍然是一个持续的挑战。

最近，三维高斯分布在基于相机的三维场景表示和重建中获得了关注，因为它们具有物理可解释性、紧凑性和固有的稀疏性。这些特性使它们成为自动驾驶中多传感器融合的有希望的候选者，在这里效率和结构化的空间理解是关键。然而，在这个背景下应用高斯表示引入了几个挑战。首先，由于现有的 E2E 驾驶数据集中缺乏细粒度的三维场景注释，很难有效地监督高斯参数。其次，现有方法主要集中在三维场景表示，留下了其在运动规划任务中的适用性未充分探索。第三，高效地利用高斯表示进行准确的轨迹生成需要仔细的架构设计。解决这些问题对于在 E2E 自动驾驶框架中启用基于高斯的表示至关重要。

考虑到上述创新和考虑因素，我们提出了 GaussianFusion，一种基于高斯的用于 E2E 自动驾驶的多传感器融合框架。我们的方法利用二维高斯来表示交通场景，与三维高斯相比提高了效率。值得注意的是，二维高斯只需要从 BEV 语义图中获得监督，这在 E2E 数据集中广泛可用。为了将融合过程定制到运动规划任务，我们设计了一个双分支融合管道。第一个分支捕获每个高斯的多传感器输入的局部特征，主要用于交通场景重建。第二个分支从相同的输入中聚合全局规划线索，并专门用于运动规划。此外，为了充分利用高斯表示的表征能力，我们引入了一个级联规划模块，该模块通过以级联方式查询高斯表示来精炼锚定轨迹。

我们在面向规划的 NAVSIM 数据集上评估了 GaussianFusion。使用与之前方法一致的 ResNet-34 骨干网络，我们的方法达到了 85.0 EPDMS和 88.9 PDMS，显著超越了当前最先进的方法。为了进一步评估我们框架的泛化性和鲁棒性，我们在闭环基准 Bench2Drive上进行了实验，结果一致表明了 GaussianFusion 的有效性。本工作的主要贡献总结如下：

首次将高斯表示引入到用于 E2E 自动驾驶的多传感器融合领域，并提出了一种针对以规划为中心的任务的双分支融合管道。
设计了一个专门适应于高斯表示的级联规划头，该头通过分层高斯查询迭代地精炼轨迹。
在开环 (NAVSIM) 和闭环 (Bench2Drive) 基准上的广泛评估表明了 GaussianFusion 的优越性能和鲁棒性。

算法详解

端到端（E2E）自动驾驶的目标是直接从原始传感器输入中预测自车的未来轨迹。形式上，给定多视角图像、LiDAR点云和变换矩阵，目标是预测自车轨迹，其中、、、和分别表示视角数量、图像分辨率、点的数量、时间处的航路点坐标和规划视野。

GaussianFusion的整体框架如图2所示。它可分为三个阶段：(1) 高斯初始化；(2) 高斯编码器：来自多传感器的高斯；(3) 高斯解码器：高斯到场景推理。

高斯初始化

由于自动驾驶车辆主要在平面上运行，因此二维高斯足以建模交通场景。具体来说，我们在驾驶场景中随机生成一组二维高斯分布，其中表示预定义的高斯数量。每个高斯由物理属性和隐藏特征共同表征。物理属性包括均值、尺度、旋转和语义logits ，其中是语义类别的数量。旋转使用其正弦和余弦分量表示。隐藏特征包括显性和隐性特征，它们通过两个独立的分支进行更新。

高斯编码器：来自多传感器融合的高斯

为了学习有意义的高斯表示，我们首先利用两个独立的骨干网络从图像和LiDAR点云中提取多尺度特征。然后这些特征用于迭代地优化高斯的物理属性和隐藏特征。每次迭代包括一个点交叉注意力模块、一个图像交叉注意力模块、一个高斯自注意力模块和一个优化模块。每个高斯的隐藏特征分为显性和隐性两部分，各自承担不同的角色。显性特征通过显性的几何变换从多传感器输入的局部区域导出，并负责更新高斯的物理属性。相比之下，隐性特征与全局多传感器特征交互，不依赖于几何变换，仅用于轨迹规划。

point交叉注意力：来自点的高斯

采用点交叉注意力（PCA）模块来提取点特征中的信息。具体而言，对于每个高斯，我们生成一组查询点，其中表示第个查询点的位置，是查询总数。查询集包括固定和可学习点：固定查询基于每个高斯的协方差矩阵分布在高斯周围，而可学习查询则限制在高斯内部。

给定多尺度点特征图，其中表示第个尺度特征图的分辨率，是尺度数，我们应用一个可变形注意力层来聚合这些特征并更新高斯的显性特征：

其中表示使用多尺度点特征更新的显性特征，表示中的第个点，表示可变形注意力。对于隐性特征，我们使用一个普通的交叉注意力[38]与最后一个尺度点特征进行交互：

其中表示更新的隐性特征，指交叉注意力层。为简洁起见，我们在公式中省略了残差连接和前馈网络（FFN）组件。更新后的高斯表示为。请注意，为了清晰起见，我们以单个高斯为例说明该过程。

图像交叉注意力：来自图像的高斯

为了整合来自多视角图像的视觉信息，我们采用了一个图像交叉注意力（ICA）模块。类似于PCA模块，ICA为每个高斯生成固定和可学习查询点。然而，这些查询还包含高度信息以实现向图像平面的投影。具体而言，我们首先生成与PCA模块中使用的相同的二维查询点。对于每个二维查询位置，我们沿垂直轴均匀采样个柱状点。每个柱的底部固定在，顶部由一个可学习变量参数化，其中和定义了交通场景的垂直边界。这导致了一组三维查询点。给定由图像主干提取的多尺度图像特征图，其中表示第个尺度特征图的分辨率，是相机视角的数量，高斯的显性和隐性特征计算如下：

其中表示中的第个三维查询点。遵循PCA模块，我们获得更新的高斯表示。

高斯优化模块

在聚合了多模态特征的信息后，我们进一步优化高斯表示。具体来说，我们采用两个独立的自注意力层来建立所有高斯之间的交互——一个用于显性特征，另一个用于隐性特征：

其中表示第个高斯的位置嵌入，和分别指自注意力和位置嵌入层[31]。随后，根据[17]，我们采用一个多层感知机（MLP）基于其显性特征优化高斯的物理属性：

上述高斯编码器被迭代应用以优化高斯表示。最终更新的高斯传递给高斯解码器，执行映射和规划等下游任务。

高斯解码器：高斯到场景推理

为了有效调节二维高斯，我们设计了一个包含两个组件的高斯解码器：地图构建和级联规划。地图构建模块显式重建交通场景，提供反向传播梯度以指导高斯编码器优化物理属性和显性特征。按照[16]，我们使用概率高斯叠加实现此模块；更多细节见附录A。级联规划模块以级联方式生成轨迹预测，其中每个后续输出基于前一个进行优化。除了利用显性特征外，它还结合了从高斯隐性融合分支获得的隐性特征。

级联规划

我们采用基于锚点的规划策略，该策略基于数据集中观察到的轨迹分布构建锚点轨迹词汇表。给定从高斯编码器获得的高斯集合，我们以级联方式细化锚点轨迹，其中表示规划视野和轨迹点数。以单个锚点轨迹为例，我们首先计算其每个轨迹点与所有高斯之间的距离。对于每个点，我们选择其最近的个高斯，形成一个高斯子集。通过查询这个高斯集获得锚点特征：

其中表示交叉注意力层，表示将锚点轨迹编码成初始查询特征的嵌入层。术语和分别指高斯的显性和隐性特征，表示它们的拼接。可以从最新的高斯解码交通地图和周围代理，使成为交通场景的全面表示。因此，我们采用一个交叉注意力层来建立锚点特征和的隐藏特征之间的交互。更新后的轨迹如下获得：

轨迹以级联方式细化，当前阶段的输出轨迹用作后续阶段的锚点输入，迭代重复 Eq.6 和 Eq.7 描述的步骤（分别称为高斯空间注意力和高斯交叉注意力）。

实验结果分析

在NAVSIM和Bench2Drive基准上评估模型。

实现细节

对于 NAVSIM 基准，我们使用 NAVSIM 训练分割进行训练。对于 Bench2Drive 基准，训练数据遵循 TF++的 "12 only" 设置。我们利用前、左前和右前摄像头以及 LiDAR 点云输入。相机图像裁剪至分辨率为 448 × 250。LiDAR 点投影到 BEV 平面，方法与 TransFuser相同。为了与先前工作进行公平比较，我们采用 ResNet-34作为主干网络。在我们的主要实验中，高斯数设置为 512，每个高斯特征维度为 128。我们采用 4 个 GaussianEncoder 块和 2 个级联规划块。锚定轨迹的数量按照 [30] 设置为 20。值得注意的是，为了提高效率，在推理过程中，GaussianDecoder 中的地图构建模块被断开。训练使用 AdamW 优化器进行，共 50 个周期，权重衰减为 1 × 10−4，最大学习率为 6 × 10−4，并遵循余弦退火调度进行学习率衰减。超参数分析见附录 C。

与SOTA对比

NAVSIM 上的结果

我们在 NAVSIM navtest 分割上对 GaussianFusion 进行基准测试，与领先的最先进（SOTA）方法进行比较。为了确保公平比较，所有模型均使用 ResNet-34作为主干网络。如表 1 所示，我们的方法实现了 85.0 EPDMS。需要注意的是，EPDMS 通过引入更细微的驾驶标准，比 PDMS 提出了更严格的挑战。进一步观察发现，大部分提升来自于可驾驶区域合规性（DAC）和车道保持（LK）子指标，这表明 GaussianFusion 在复杂环境中能够实现更稳定和情境感知的行为。同样，我们的方法显著优于以前的方法，尤其是在 DAC 和自车进展（EP）等关键子指标上。这些结果一致地证实了我们的方法在多种评估协议下的鲁棒性和有效性。

Bench2Drive 上的结果

我们进一步在闭环基准 Bench2Drive 上进行实验，以将我们的方法与现有的 SOTA E2E 方法进行比较。如表 2 所示，我们的方法 GaussianFusion 实现了最佳的整体性能（79.4 DS），超过了所有基于学习的基线方法。它在各种任务中表现出均衡的优势，特别是在超车和交通标志合规性方面。与基于规则的特权方法 PDM-Lite 相比，我们的方法仍然在一定程度上有所不足，这表明端到端自动驾驶方法仍有很大的改进空间。

消融研究

不同组件的效果

为了了解 GaussianFusion 中每个设计选择的影响，我们通过逐步添加高斯显性融合（Gaussian Exp. Fusion）、高斯隐性融合（Gaussian Imp. Fusion）、级联规划头（Cascade Planning）和代理预测头（Agent Pred.）到 TransFuser 基线中来进行受控消融研究。结果如表 3 所示。引入高斯显性融合导致 EPDMS 显著增加了+2.4，同时减少了参数数量。添加高斯隐性融合进一步将性能提升至 84.5 EPDMS，仅略微增加参数数量。此外，包含级联规划头将得分推高至 85.0 EPDMS，设置了一个新的记录，总参数数量与基线相当。这些发现证实了我们的架构组件在不显著增加模型复杂性的情况下提供强大的性能提升。最后，我们观察到加入代理预测头会降低性能。我们认为这是因为代理预测任务未能为高斯优化过程提供有效的指导，反而引入了模糊性——我们称之为高斯混淆。鉴于语义地图已经编码了足够的代理相关信息，我们在最终设计中移除了代理预测头。

不同多传感器融合方法

表 4 展示了各种多传感器融合方法在模型参数、语义地图构建、轨迹规划和推理延迟方面的综合比较。延迟是通过 RTX3090 测量的。为了确保公平比较，所有方法都采用相同的主干网络和任务头。我们提出的方法 GaussianFusion 在语义地图构建和轨迹规划方面均取得了最佳性能，同时使用最少的参数，突出了我们的融合策略的有效性和高斯表示在自动驾驶中的潜力。受益于高斯表示的稀疏性，GaussianFusion 在推理速度上也优于密集 BEV 融合方法。然而，尽管使用较少的参数，其延迟仍然高于扁平融合方法。我们将此归因于我们实现中的定制 CUDA 操作，目前这些操作不如原生 PyTorch 操作优化。

定性比较

为了直观理解高斯编码器中的优化过程，我们可视化了不同优化阶段的高斯空间分布，如图 3 所示。在初始阶段，高斯在整个场景中均匀分布。随着优化的进行，它们逐渐向前景区域收敛。这种行为突出了高斯表示的优势，它提供了比传统密集 BEV 地图更紧凑和灵活的替代方案。更多的高斯可视化显示在附录的图 5 中。我们还展示了在各种交通场景下的预测自车轨迹，如图 4 所示。为了定性评估预测准确性，我们将这些轨迹与地面实况数据进行了比较。在图 4 的最左侧场景中，车辆在没有信号引导的情况下进行无保护左转——这是一个具有挑战性的情况。我们的方法仍然预测出与地面实况非常接近的轨迹。此外，如图 4 的两个最右侧场景所示，我们的方法即使在密集交通条件下也能生成准确的轨迹计划，进一步证明了其鲁棒性和可靠性。

结论

在这项工作中，我们提出了 GaussianFusion，一种基于高斯的端到端自动驾驶多传感器融合框架。通过利用紧凑且灵活的二维高斯表示，我们的方法在空间感知和计算效率之间取得了平衡。双分支融合架构捕捉了来自多模态输入的局部细节和全局规划线索，而级联规划模块逐步细化轨迹预测。在 NAVSIM 和 Bench2Drive 基准上的实验表明，GaussianFusion 在高效规划性能方面显著提高了性能。这些结果突出了高斯表示在端到端自动驾驶系统中高效且可解释的传感器融合的潜力。GaussianFusion 的局限性在于其定制的 CUDA 操作尚未完全优化。在未来的工作中，我们计划进一步优化这些操作或用已建立的神经网络库的操作替换它们。

自动驾驶之心

论文辅导来啦

知识星球交流社区

近4000人的交流社区，近300+自动驾驶公司与科研结构加入！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎加入。

独家专业课程

端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网：www.zdjszx.com