ECCV2022 | BEVFormer原文翻译

BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers

BEVFormer: 通过时空变换器从多摄像头图像中学习鸟瞰图表征

Figure 1:  We propose BEVFormer, a paradigm for autonomous driving that applies both Transformer and Temporal structure to generate bird's-eye-view (BEV) features from multi-camera inputs. BEVFormer leverages queries to lookup spatial/temporal space and aggregate spatiotemporal information correspondingly, hence benefiting stronger representations for perception tasks.

图 1:我们提出的 BEVFormer 是一种自动驾驶范例,它应用变换器和时空结构从多摄像头输入生成鸟瞰图 (BEV) 特征。BEVFormer 利用查询功能查找空间/时间空间,并相应地汇总时空信息,从而为感知任务提供更强的表征。

Abstract
内容摘要
        三维视觉感知任务,包括基于多摄像头图像的三维检测和地图分割,对于自动驾驶系统至关重要。在这项工作中,我们提出了一个名为 BEVFormer 的新框架,它利用时空变换器学习统一的 BEV 表征,以支持多种自动驾驶感知任务。简而言之,BEVFormer 通过预定义的网格状 BEV 查询与空间和时间进行交互,从而利用空间和时间信息。为了聚合空间信息,我们设计了空间交叉关注,使每个 BEV 查询都能从跨摄像头视图的感兴趣区域提取空间特征。对于时间信息,我们提出了时间自关注,以反复融合历史 BEV 信息。我们的方法在 nuScenes 测试集上的 NDS 指标达到了 56.9% 的最新水平,比之前的最佳技术高出 9.0 个百分点,与基于激光雷达的基线性能相当。我们进一步表明,BEVFormer 显著提高了低能见度条件下速度估计的准确性和物体的召回率。代码见 https://github.com/zhiqi-li/BEVFormer。

1 引言Introduction
        三维空间感知对于自动驾驶、机器人等各种应用至关重要。尽管基于激光雷达的方法[43, 20, 54, 50, 8]取得了显著进展,但基于摄像头的方法[45, 32, 47, 30]近年来也引起了广泛关注。与基于激光雷达的方法相比,摄像头除了部署成本低外,还具有探测远距离物体和识别基于视觉的道路要素(如交通信号灯、停车线)的理想优势。
        在自动驾驶中,对周围场景的视觉感知有望从多个摄像头提供的二维线索中预测出三维边界框或语义图。最直接的解决方案是基于单目框架 [45, 44, 31, 35, 3] 和跨摄像头后处理。这种框架的缺点是,它分别处理不同的视图,无法捕捉跨摄像头的信息,导致性能和效率低下[32, 47]。
        作为单目框架的替代方案,一种更为统一的框架是从多摄像头图像中提取整体表征。鸟瞰图(BEV)是一种常用的周围场景表示法,因为它能清晰地显示物体的位置和比例,适用于各种自动驾驶任务,如感知和规划 [29]。虽然之前的地图分割方法证明了 BEV 的有效性 [32, 18, 29],但在三维物体检测方面,基于 BEV 的方法与其他范例相比并没有显示出明显的优势 [47, 31, 34]。其根本原因在于,三维物体检测任务需要强大的 BEV 特征来支持精确的三维边界框预测,但从二维平面生成 BEV 却不是一件容易的事。一种基于深度信息生成 BEV 特征的流行 BEV 框架 [46, 32, 34],但这种模式对深度值或深度分布的准确性很敏感。因此,基于 BEV 的方法的检测性能会受到复合误差的影响 [47],而不准确的 BEV 特征会严重影响最终性能。因此,我们设计了一种不依赖深度信息的 BEV 生成方法,它可以自适应地学习 BEV 特征,而不是严格依赖 3D 先验。Transformer 利用注意力机制动态聚合有价值的特征,从概念上满足了我们的要求。
        使用 BEV 特征执行感知任务的另一个动机是,BEV 是连接时空的理想桥梁。对于人类视觉感知系统来说,时间信息在推断物体运动状态和识别遮挡物体方面起着至关重要的作用,视觉领域的许多研究都证明了使用视频数据的有效性[2, 27, 26, 33, 19]。然而,现有的最先进的多摄像头 3D 检测方法很少利用时间信息。其面临的重大挑战是,自动驾驶对时间要求严格,场景中的物体变化迅速,因此简单地堆叠交叉时间戳的 BEV 特征会带来额外的计算成本和干扰信息,效果可能并不理想。受递归神经网络(RNN)[17, 10]的启发,我们利用 BEV 特征从过去到现在递归地传递时间信息,这与 RNN 模型的隐藏状态具有相同的精神。
        为此,我们提出了一种基于变换器的鸟瞰(BEV)编码器,称为 BEVFormer,它能有效地汇聚来自多视角摄像机的时空特征和历史 BEV 特征。由 BEVFormer 生成的 BEV 特征可同时支持多种三维感知任务,如三维物体检测和地图分割,这对自动驾驶系统非常有价值。如图 1 所示,我们的 BEVFormer 包含三个关键设计,分别是:(1)网格状 BEV 查询,通过注意力机制灵活融合空间和时间特征;(2)空间交叉注意力模块,聚合多摄像头图像的空间特征;(3)时间自注意力模块,从历史 BEV 特征中提取时间信息,有利于运动物体的速度估计和严重遮挡物体的检测,同时带来的计算开销可以忽略不计。有了 BEVFormer 生成的统一特征,该模型就能与不同的特定任务头(如可变形 DETR [56] 和掩码解码器 [22])协作,实现端到端的 3D 物体检测和地图分割。

我们的主要贡献如下:

  1. 我们提出的 BEVFormer 是一种时空变换编码器,可将多摄像头和/或时间戳输入投射到 BEV 表示中。利用统一的 BEV 特征,我们的模型可以同时支持多种自动驾驶感知任务,包括三维检测和地图分割。
  2. 我们设计了可学习的 BEV 查询以及空间交叉注意层和时间自我注意层,以分别查找来自交叉摄像头的空间特征和来自历史 BEV 的时间特征,然后将它们汇总为统一的 BEV 特征。
  3.  我们在多个具有挑战性的基准(包括 nuScenes [4] 和 Waymo [40])上对所提出的 BEVFormer 进行了评估。与之前的技术相比,我们的 BEVFormer 不断提高性能。例如,在参数和计算开销相当的情况下,BEVFormer 在 nuScenes 测试集上实现了 56.9% 的 NDS,比之前的最佳检测方法 DETR3D [47] 高出 9.0 个百分点(56.9% vs. 47.9%
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值