【论文笔记】SparseLIF: High-Performance Sparse LiDAR-Camera Fusion for 3D Object Detection

原文链接:https://arxiv.org/abs/2403.07284

简介:稀疏3D检测器因其无需密集BEV特征表达的低延迟特性受到了广泛关注,但其性能低于密集检测器。本文的SparseLIF是一个完全稀疏的端到端多模态3D目标检测器,包含3个关键设计:(1)透视感知的查询生成(PAQG),利用透视先验生成高质量3D查询;(2)RoI感知的采样(RIAS),通过从各模态采样RoI特征细化先验查询;(3)不确定性感知的融合(UAF),精确量化各模态的不确定性并自适应融合,实现对传感器噪声的鲁棒性。实验表明SparseLIF在NuScenes上能达到最优性能。

0. SparseLIF概述

在这里插入图片描述
使用图像主干和FPN提取多视图/多尺度/多帧的图像特征,记为 X c a m = { X c a m v m t } v = 1 , m = 1 , t = 1 V , M , T X_{cam}=\{X_{cam}^{vmt}\}_{v=1,m=1,t=1}^{V,M,T} Xcam={ Xcamvmt}v=1,m=1,t=1V,M,T,其中 V , M , T V,M,T V,M,T分别为相机视图数,特征尺度数和时间帧数。同时,使用3D激光雷达主干和FPN提取多尺度激光雷达特征,记为 X l i d = { X l i d r } r = 1 R X_{lid}=\{X_{lid}^r\}_{r=1}^R Xlid={ Xlidr}r=1R,其中 R R R为激光雷达特征尺度数。

透视感知的查询生成(PAQG)模块使用耦合的2D和单目3D图像检测器,利用透视先验生成高质量3D查询。此后,RoI感知的采样(RIAS)模块会将查询与图像和激光雷达特征交互,提取RoI特征进行细化。不确定性感知的融合(UAF)模块会量化RoI特征的不确定性,并进行多模态特征的自适应融合,用于3D目标检测。

1. 透视感知的查询生成

最近的方法通常使用可学习查询,但学习将与输入无关的查询移动到真值附近较为困难。可视化表明,2D检测对远处和小物体的检测更好,因此本文利用2D检测提供的透视先验生成3D查询。
在这里插入图片描述
PAQG中的轻量级透视检测器包括耦合的2D和单目3D子网络,前者预测中心位置 ( c x , c y ) (c_x,c_y) (cx,cy)、置信度分数和类别标签,后者预测不同视图下的深度 d d d、旋转角、大小和速度。基于相机外参 E v E_v Ev和内参 I v I_v Iv,将边界框中心投影到3D空间:
c 3 D = E v − 1 I v − 1 [ c x d , c y d , d , 1 ] c^{3D}=E^{-1}_vI_v^{-1}[c_xd,c_yd,d,1] c3D=Ev1Iv1[cxd,cyd,d,1]

3D中心 c 3 D c^{3D} c3D会与预测大小、旋转角和速度组合得到3D边界框。然后,进行非最大抑制,根据置信度分数选择前 N k N_k Nk个边界框,通过交叉注意力,用图像特征初始化查询:
q i = 1 ∣ V ∣ ∑ v ∈ V ∑ m = 1 M B S ( X c a m v m , P c a m v ( c i 3 D ) ) q_i=\frac1{|\mathcal V|}\sum_{v\in \mathcal V}\sum_{m=1}^MBS(X_{cam}^{vm},P_{cam}^v(c_i^{3D})) qi=V1vVm=1MBS(Xcamvm

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

byzy

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值