CVPR 2024 Oral开源！打通在线地图和轨迹预测中的壁垒！-CSDN博客

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附行业细分群

扫描下方二维码，加入3D视觉知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门视频课程（星球成员免费学习）、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 这篇文章干了啥？

自动驾驶的一个关键组成部分是理解静态环境，例如道路布局和连接性，围绕着自动驾驶车辆（AV）的环境。因此，已经开发了高清晰度（HD）地图，用于捕获和提供此类信息，包含道路边界、车道分隔线和道路标志等语义，以厘米级别的精度。近年来，HD地图已被证明对AV的开发和部署至关重要，今天被广泛使用。然而，HD地图标注和长期维护成本高昂，而且只能在地理围栏区域内使用，限制了AV的可扩展性。为解决这些问题，许多最近的工作转向于从传感器数据中在线估算HD地图。广义上讲，它们旨在预测地图元素的位置和类别，通常作为多边形或折线，全都是从摄像机图像和LiDAR扫描中获取的。然而，当前的在线地图估算方法并不提供任何相关的不确定性或置信度信息。这是有问题的，因为它导致下游使用者隐式地假设推断的地图组件是确定的，而任何地图错误（例如，元素移位或错误放置）可能导致下游行为错误。为此，我们提出了从在线地图估算方法中暴露地图不确定性，并将其纳入下游模块的方法。具体而言，我们将地图不确定性纳入轨迹预测中，并发现与没有地图不确定性的组合映射器-预测器系统相比，具有地图不确定性的系统有显著的性能改进。

下面一起来阅读一下这项工作~

1. 论文信息

标题：Producing and Leveraging Online Map Uncertainty in Trajectory Prediction

作者：Xunjiang Gu, Guanyu Song, Igor Gilitschenski, Marco Pavone, Boris Ivanovic

机构：多伦多大学、Vector Institute、NVIDIA Research、斯坦福大学

原文链接：https://arxiv.org/abs/2403.16439

代码链接：https://github.com/alfredgu001324/MapUncertaintyPrediction

2. 摘要

高清（HD）地图在现代自动驾驶汽车（AV）堆栈的发展中发挥着至关重要的作用，尽管相关的标注和维护成本高昂。因此，许多最近的工作提出了从传感器数据在线估计HD地图的方法，使AV能够在之前映射的区域之外运行。然而，当前的在线地图估计方法是在与其下游任务隔离的情况下开发的，这使得它们在AV堆栈中的集成变得复杂。特别是，它们不产生不确定性或置信度估计。在这项工作中，我们将多种最先进的在线地图估计方法扩展到另外估计不确定性，并展示了这如何使在线制图与轨迹预测更紧密地集成。通过这样做，我们发现将不确定性纳入到训练中可使收敛速度提高50％，并且在真实世界的nuScenes驾驶数据集上可提高15％的预测性能。

3. 效果展示

从在线高清地图估计方法中产生不确定性，并将其纳入下游模块中，会产生各种好处。左侧：地面真实高清地图和代理位置。中间：使用MapTR输出的地图的HiVT预测。右侧：使用MapTR输出的地图，并增加点不确定性的HiVT预测（由于左侧道路边界被停放的车辆遮挡，不确定性较大）。

我们提出的不确定性表达能够捕捉自动驾驶汽车摄像头与周围地图元素之间遮挡所产生的不确定性。左侧：来自前置和前右摄像头的图像。右侧：来自我们增强的在线高清地图模型的高清地图。椭圆显示分布的标准偏差。颜色代表道路边界、车道分隔线、人行横道、车道中心线。

在拥挤的停车场中，许多模型无法生成准确的地图。左侧：来自后置和后左摄像头的图像。右侧：来自我们增强的在线高清地图模型的高清地图。椭圆显示分布的标准偏差。颜色指示道路边界、车道分隔线、人行横道、车道中心线。

4. 主要贡献

我们的核心贡献有三个方面：首先，我们提出了一个通用的矢量化地图不确定性公式，并将多种最先进的在线地图估算方法扩展到输出不确定性估计，而不会降低纯地图性能。其次，我们从实证分析地图不确定性的潜在来源，确认了当前地图估算方法缺乏置信度的地方，并指导了未来的研究方向。第三，我们将许多最近的在线地图估算模型与多种最先进的轨迹预测方法相结合，展示了如何将在线地图不确定性纳入，显著提高了下游预测模型的性能和训练特性，训练收敛速度提高了最多50%，在线预测精度提高了最多15%。

5. 基本原理是啥？

许多在线高清矢量地图估计方法通过对多摄像头图像进行编码，将它们转换为一个共同的BEV特征空间，并回归地图元素顶点来操作。我们的工作通过一个概率回归头将这个共同的输出结构进行扩展，将每个地图顶点建模为一个拉普拉斯分布。为了评估由此产生的下游效应，我们进一步扩展了下游预测模型以编码地图不确定性，增强了基于GNN和Transformer的地图编码器。为了确保我们提出的不确定性公式对各种地图估计方法的普适性，我们重点关注扩展这个共同的输出结构，以额外产生位置和类别的不确定性。

6. 实验结果

传感器范围的不确定性。在地图估计中另一个重要的不确定性来源是从车载摄像头到地图元素的距离，这源于许多地图模型中的二维到BEV变换。如图5所示，随着车辆与相应地图元素之间的距离增加，地图的不确定性通常会增加。我们还可以看到，相较于其前身MapTR，MapTRv2通常产生更低的不确定性，与MapTRv2通常比MapTR更准确的事实相匹配。与其他每帧模型相比，StreamMapNet的不确定性保持相对恒定，再次突显了聚合时间信息的好处。此外，当MapTRv2被要求估计车道中心线时，行人过街横道的不确定性增加。一个假设是，车道中心线经常穿过行人过街横道，导致模型在训练期间对于优化哪条折线产生困惑。

光照和天气带来的不确定性。在图6中，我们可以看到通常由路灯、车辆头灯照亮和/或包含反射表面（即车道边界和隔离线）的地图元素在白天和夜晚保持相同水平的不确定性。相反，模型在夜间预测行人横穿时的不确定性明显增加，可能表明他们在夜间的照明不像其他元素那样一致。

将地图不确定性融入预测。为了评估将地图不确定性融入下游自主堆栈组件的效果，我们在前述的地图模型的输出上训练DenseTNT和HiVT，分别使用和不使用我们的输出不确定性公式，产生16种组合。

预测准确性改进。如表1所示，对于几乎所有的地图/预测模型组合，融合不确定性都能够产生更好的预测性能。一般来说，MR的改进最大，表明通过融合地图不确定性，预测模型可以有效地调整其行为，以更接近地面真实的未来，尤其是在端点处。端点准确性对于轨迹预测尤为重要，因为许多方法采用两阶段流程，第一阶段预测可能的端点。此外，尽管MapTRv2在地图估计方面明显优于MapTR，但在预测性能上却几乎没有明显差异（事实上，在表1的前两组行中，MapTR的预测性能比MapTRv2更好）。这表明上游地图估计模型的准确性改进可能不会直接提高下游预测准确性。

在所有指标中取得的最佳预测性能（在某些情况下远远超过）是利用MapTRv2-Centerline输出时实现的。这证实了使用中心线来指导轨迹预测的优越性，并指出了整合系统从未来地图估计研究中可以获得最大改进的地方。最有趣的是，使用MapTRv2-Centerline训练的DenseTNT的性能超过了使用GT车道中心线训练的DenseTNT的性能。这源于MapTRv2-Centerline有时为一个车道产生多个中心线。对于像DenseTNT这样的基于目标的模型，同一车道中的多个中心线提供了更丰富的端点选择，更专注于车道内的结果端点，并产生更好的预测性能。

训练收敛改进。在训练过程中，我们发现当融合地图不确定性时，所有轨迹预测模型都能够更快地收敛。如表2所示，当融合地图不确定性时，DenseTNT的训练收敛速度要快得多，比仅融合坐标时要早2-4个epochs达到最佳验证性能。

预测可视化。虽然每个模型都可以预测每个代理的轨迹，但为了清晰起见，我们只绘制中心代理的预测。图7可视化了一个复杂的交叉口，其中包含许多地图元素（图7a）。对于HiVT + MapTR，没有地图不确定性的预测会超出实际情况，直接进入另一条车道（图7b）。有了地图不确定性，HiVT的预测保持在正确的车道内（图7c）。对于DenseTNT + StreamMapNet，没有地图不确定性的预测最终会偏离路面，忽视左侧道路边界（图7d）。有了地图不确定性，DenseTNT的预测会保持在道路边界内，因为StreamMapNet以高确定性产生了它们（图7e）。

图8可视化了一个巴士站停车场，其中包含许多来自静止车辆的遮挡（图8a）。对于HiVT + MapTR，没有地图不确定性的预测明显超出了实际情况，直接朝着道路边界，许多摩托车停放在那里（图8b）。有了地图不确定性，HiVT的预测更好地匹配了GT运动（图8c）。StreamMapNet在映射这种环境时有特别困难，预测的道路边界穿过道路中间，并产生了朝向行人的错误预测（图8d）。有了地图不确定性，DenseTNT的预测会保持在道路边界内，并紧密聚集在GT未来附近（图8e）。

图9可视化了一栋建筑物的一个有趣的类似隧道的入口，中心代理后面有来自卡车的明显遮挡（图9a）。对于HiVT + MapTR，没有地图不确定性的预测会超出实际情况，并与道路边界相撞（图9b）。有了地图不确定性，HiVT的预测保持在正确的车道内，并与GT未来密切匹配（图9c）。StreamMapNet再次在映射这种环境时遇到了特别困难，预测的道路边界直接穿过道路中间，并产生了错误的预测（图9d）。有了地图不确定性，DenseTNT的预测几乎完全与GT未来重叠（图9e）。

7. 总结 & 未来工作

在这项工作中，我们提出了一个通用的矢量化地图不确定性公式，并将多个最先进的在线地图估计方法MapTR、MapTRv2和StreamMapNet扩展为额外输出不确定性。我们系统地分析了所得到的不确定性，并发现我们的方法捕捉到了许多不确定性源（遮挡、距离摄像机的距离、白天时间和天气）。最后，我们将这些在线地图估计模型与最先进的轨迹预测方法（DenseTNT和HiVT）结合起来，并表明，将在线地图不确定性纳入考虑显著提高了预测模型的性能和训练特性，分别提高了50%和15%。一个激动人心的未来研究方向是利用这些不确定性输出来衡量地图模型的校准。然而，这受到了模糊点集匹配的需求的限制，这本身是一个具有挑战性的问题。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型：NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

除了这些，还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

▲长按扫码添加助理

3D视觉工坊知识星球

3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括：星球视频课程近20门（价值超6000）、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。

▲长按扫码加入星球

3D视觉工坊官网：www.3dcver.com

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪，无人机等。

▲长按扫码学习3D视觉精品课程

3D视觉相关硬件

图片	说明	名称
	硬件+源码+视频教程	精迅V1(科研级)）单目/双目3D结构光扫描仪
	硬件+源码+视频教程	深迅V13D线结构光三维扫描仪
	硬件+源码+视频教程	御风250无人机(基于PX4)
	硬件+源码	工坊智能ROS小车
	配套标定源码	高精度标定板(玻璃or大理石)
添加微信:cv3d007或者QYong2014 咨询更多