Structured Bird’s-Eye-View Traffic Scene Understanding from Onboard Images翻译

本文提出了一种端到端的视觉方法,从单个车载摄像头图像中提取BEV坐标表示的局部道路网络的有向图,并进行目标检测。该方法利用变压器网络预测贝塞尔曲线控制点和连接性矩阵,实现车道图和对象实例的估计。实验结果表明,该方法在精确召回、检测率和连通性等方面优于基线,适用于自动驾驶的路径规划和导航任务。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

摘要

自主导航需要道路网络的结构化表示和其他交通代理的实例识别。由于交通场景是在地平面上定义的,因此这与鸟瞰视图(BEV)中的场景理解相对应。然而,自动驾驶汽车的车载摄像头通常水平安装,以便更好地观察周围环境,这使得这项任务非常具有挑战性。在这项工作中,我们研究了如何从单个车载摄像头图像中提取一个以BEV坐标表示局部道路网络的有向图的问题。此外,我们还证明了该方法可以推广到BEV平面上的动态目标检测。检测到的对象的语义、位置和方向以及道路图有助于全面理解场景。这种理解对于下游任务(如路径规划和导航)至关重要。我们根据强大的基线验证了我们的方法,并表明我们的网络实现了优异的性能。我们还通过烧蚀研究展示了各种设计选择的效果。

引言

道路场景理解对于自动驾驶至关重要,因为它形成了感知和规划之间的接口。基本任务是了解道路网络结构和周围的其他交通代理。目前,go-to解决方案是结合模块化perception堆栈的离线生成高清地图[22,41,30,36,8]。要使现有解决方案发挥作用,不仅需要在高清地图中进行精确定位,还需要了解场景的动态部分[30,44]。为了达到这些要求,大多数解决方案使用多个传感器,包括摄像头和激光雷达。然而,使用昂贵的传感器和离线高清地图限制了自主驾驶的可扩展性,因为它们增加了运营成本,并限制了自动驾驶汽车在地理限制区域的运营。
在这项工作中,我们提出了一种端到端的视觉方法,该方法仅在给定前向摄像头图像的情况下执行车道图提取和目标检测。我们的方法直接估计道路网络的图形结构和表示各车道中心线的样条曲线,如图1所示。除了估计道路图,我们的模型还可以直接在BEV平面上检测车辆、行人等物体,如图2所示。我们方法的输出格式非常适合下游规划[2,9]和预测[12,45,20,37]任务,这些任务需要车道图以及对象的位置和类别。事实上,也可以通过观察现有数据集(如[4])提供的标签来理解这种需求,这些数据集以结构化形式提供标签。
通常,现有方法将结构化标签映射到其他形式,如语义掩码,以执行场景理解[14]。然而,下游任务需要这些理解的结构化形式[26,34,25,19]。
理解高清地图是一个具有挑战性的问题,主要是由于复杂的拓扑变化。从一幅图像中连贯地恢复这样的拓扑结构仍然是一个尚未探索的问题。这项工作首次解决了这一具有挑战性的问题,同时还直接在BEV坐标系中检测场景中的对象。
现有工作的重点是(i)从密集3D点提取高清地图[19],或(ii)从单个图像检测道路车道[21]。其他变体,如BEV语义理解,也存在[40,29,32]。请注意,[19]的HDmap重建在拓扑上比[21]的车道检测问题更具挑战性。我们的工作目标是使用[21]的图像输入设置来实现类似于[19]的结果。此外,我们的目标是使用与结构化高清地图预测相同的模型检测对象。
我们将HD地图表示为BEV坐标系下的有向图,其边缘为路段,方向表示交通流。我们使用带有起点和终点的贝塞尔曲线对每个路段进行建模。预测段之间的连接使用分配矩阵建模。对于预测,我们使用变压器网络,该网络在输出端使用匈牙利算法进行监督。预测的路段及其连通性定义了完整的车道图HD地图。我们的变压器网络进一步预测2D BEV对象的参数。对象预测分支是受监督的,类似于路段。图2显示了我们的车道图高清地图和目标估计方法的两个示例输出。为此,我们的主要贡献可总结如下。
•我们提出了一种从单个车载单目摄像机图像进行结构化BEV道路网络图估计和目标检测的统一方法。
•所提议的方法获得的结果明显优于比较基线。

相关工作

道路网络提取:道路网络提取的早期工作使用航空图像[13,39]。基于相同的设置,最近的作品[3,42,43]更有效地执行网络提取。然而,基于航空成像的方法只能提供粗略的道路网络。这样的预测可能对路由有用,但是,对于行动计划来说,它们不够精确。
高清地图:在文献中,高清地图通常使用聚集的2D和3D视觉信息离线重建[25,18,26]。虽然这些工作是我们工作背后的主要动机,但它们需要3D点云进行精确的高清地图重建。更重要的是,离线方法在一些标准帧中恢复HD贴图。因此,在许多情况下,使用恢复的地图需要精确定位。在这方面,我们的工作类似于[17],其中车道边界以多段线的形式在公路上检测。这项工作的扩展[17]使用递归神经网络在3D点云中生成初始边界点。然后将初始点用作预测车道边界的多边形RNN[1]的种子。
我们的方法在两个主要方面与[17]不同:(i)点云与单个图像输入的对比,(ii)无限制设置中的公路车道边界与车道中心线的对比。
BEV语义理解:由于其实际用途,BEV中使用图像的场景理解最近受到了广泛关注[40,35,5]。有些方法还将图像与激光雷达数据相结合[33,16]。在这方面,在[40,31]中开发的方法使用单个图像来理解BEV HD地图语义。类似地,在[5]中提出的方法将视频数据用于相同的任务。
这类方法不提供适合许多下游任务的结构化输出。这些方法可用于一般场景理解。然而,它们在运动规划和导航任务中的使用并非微不足道。此外

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值