PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images

全文摘要

本文介绍了一种名为PETRv2的统一框架,用于从多视图图像中进行三维感知。该框架基于先前提出的PETR框架,并探索了时间建模的有效性,利用前一帧的时间信息来提高三维物体检测效果。作者在PETR的基础上扩展了三维位置嵌入(3D PE),以实现不同帧对象位置之间的时间对齐,并引入了一个特征引导的位置编码器来改善3D PE的数据适应性。为了支持多任务学习(如BEV分割和三维车道检测),PETRv2提供了简单而有效的解决方案,通过引入特定于任务的查询,在不同的空间下初始化。实验结果表明,PETRv2在三维物体检测、BEV分割和三维车道检测等方面取得了最先进的性能。此外,还进行了详细的鲁棒性分析。作者希望PETRv2能够成为三维感知的强大基准线。代码可以在https://github.com/megvii-research/PETR上获得。

论文方法

方法描述

本文提出的PETRv2是一种基于多视角图像的自动驾驶感知框架,用于检测、分割和识别场景中的对象和车道线。该框架建立在先前的PETR模型之上,并增加了时序建模和BEV分割模块。

首先,对于每帧图像,使用ResNet-50等预训练的卷积神经网络提取特征。然后,根据相机坐标系生成3D坐标。考虑到车辆运动的影响,将前一帧的3D坐标通过姿态变换转换到当前帧的坐标系中。接着,将相邻两帧的2D特征和3D坐标分别连接起来,输入到特征引导位置编码器(FPE)中,以生成关键值和值组件供Transformer解码器使用。最后,将检测、分割和车道查询初始化于不同空间并注入Transformer解码器,更新后的查询被送入任务特定头以进行最终预测。

方法改进

与原始的PETR模型相比,PETRv2引入了以下改进:

  1. 增加了时序建模:通过计算3D坐标之间的距离,实现跨帧目标定位和速度估计。
  2. 引入了BEV分割模块:通过为每个指定区域分配一个seg查询来实现高分辨率BEV地图的分割。
  3. 添加了3D车道检测功能:通过添加lane查询来支持3D车道检测。

此外,本文还提出了特征引导位置编码器(FPE),以利用2D特征提供视觉先验信息。

解决的问题

PETRv2主要解决了以下问题:

  1. 跨帧目标定位和速度估计:通过计算3D坐标之间的距离,实现了跨帧目标定位和速度估计。
  2. 高分辨率BEV地图分割:通过为每个指定区域分配一个seg查询,实现了高分辨率BEV地图的分割。
  3. 3D车道检测:通过添加lane查询,支持3D车道检测。

这些改进使得PETRv2能够更准确地检测、分割和识别场景中的对象和车道线,从而提高自动驾驶系统的性能。

论文实验

本文主要介绍了基于PETR模型的多帧3D目标检测方法PETRv2,并进行了多项对比实验以验证其性能表现。

首先,在nuScenes和OpenLane两个数据集上,作者比较了PETRv2与近期其他公开方法在3D物体检测任务上的性能差异。结果表明,PETRv2在nuScenes测试集中取得了39.8%的mAP和49.4%的NDS,相较于PETR模型有显著提升。此外,PETRv2在BEV分割任务中也表现出色,实现了更好的IoU分数。

其次,作者还对PETRv2进行了不同参数设置下的对比实验,如使用不同的摄像头旋转幅度等。结果显示,增加锚点数量可以进一步提高模型性能,而引入FPE模块则有助于提高模型鲁棒性。

最后,作者还分析了模型在存在相机时间延迟、相机丢失等情况下的性能表现。实验结果表明,时间延迟对模型性能影响较大,相机丢失也会导致较大的性能下降。

综上所述,PETRv2在多个数据集和任务上均表现出优异的性能,且具有较强的鲁棒性和可扩展性。

论文总结

文章优点

该论文提出了一种名为PETRv2的统一框架,用于从多相机图像中实现三维感知。该框架在原有基础上增加了时序建模和多任务学习,并通过引入特征引导位置编码(FPE)来改进了原始的3D位置嵌入(3D PE)。实验结果表明,该框架在3D目标检测、BEV分割和3D车道检测等任务上均取得了最先进的性能。

方法创新点

该论文的主要贡献在于提出了以下几点创新点:首先,作者研究了将位置嵌入变换扩展到时序表示学习的概念,通过相机参数将相机视图中的3D坐标转换为当前帧和前一帧之间的相对坐标,从而实现了时序建模;其次,作者设计了一种针对不同任务的任务特定查询方案,使得不同的任务可以共享相同的解码器,同时使用不同的头部产生高质量的预测结果;最后,作者引入了特征引导位置编码(FPE),通过对2D图像特征进行注入并应用sigmoid层来重新加权3D PE,使其更加数据依赖,提供更有效的查询指导。


全文翻译

摘要

本文提出PETRv2,这是一种用于多视图图像的三维感知统一框架。基于PETR[24],PETRv2探索了时间建模的有效性,利用前一帧的时间信息来提升三维物体检测性能。具体来说,我们扩展了PETR中的3D位置嵌入(3D PE)进行时间建模。3D PE在不同帧的对象位置上实现了时间对齐。此外,还引入了一个特征引导的位置编码器以提高3D PE的数据适应性。为了支持多任务学习(例如BEV分割和3D车道检测),PETRv2通过引入任务特定查询提供了一种简单而有效的解决方案,这些查询是在不同的空间中初始化的。PETRv2在三维物体检测、BEV分割和3D车道检测方面取得了最先进的性能。我们也对PETR框架进行了详细的鲁棒性分析。我们希望PETRv2能够作为三维感知的强大基准。代码可在https://github.com/megvii-research/PETR获得。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值