【3D目标检测】3D Object Detection Using Scale Invariant and Feature Reweighting Networks文献解读(2019)

1、 为什么要做这个研究(理论走向和目前缺陷) ?
估计就是为了发论文而写的,看不出要解决什么问题。
2、 他们怎么做这个研究 (方法,尤其是与之前不同之处) ?
整体来看本文就是F-PointNet的变种,创新不大。先2D检测器crop点云视锥,然后在视锥内做点云的前背景分类,然后对前景点云做坐标系变换(基于PointNet中的T-net实现)以及做最终的3D框的回归,在最终的3D框的回归时加了通道注意力。
3、 发现了什么(总结结果,补充和理论的关系)?
效果不怎么样,实验也不够充分。

摘要:提出了基于视锥点云处理SIFRNet网络,本文关注点是用图片和视锥点云实现3D目标检测。一方面,通过利用PointSIFT能够捕获朝向信息且具备尺度不变形的特性来提高3D点云分割性能,另一方面,网络还用了SE模块在在通道层面加注意力。

1、 引言
本文的方法中,用一个包含PointSIFT模块的子网络Point-UNet来实现尺度不变形并且捕获朝向信息,并将图像提取出的特征也输入到Point-UNet中实现信息融合。
SIFRNet的另外一个子网络就是T-Net,用来中心化感兴趣的点,并用Point-SENet来预测3D检测框,这里的SE模块主要用于在3D点的通道特征层面施加注意力。

2、 相关研究(略)
3、 SIFRNet
SIFRNet主要包括3部分:1)3D实例分割网络(Point-UNet),2) T-Net, 3)3D框预测网络Point-SENet。网络结构如下图所示:
在这里插入图片描述

Point-UNet:输入的是2D检测器预测的检测框投到3D点云视锥后,这个视锥里的3D点,同时输入到Point-UNet里的还有2D检测框对应的图片区域的特征编码,输出的是对每个点的二分类结果,即是否是前景点。仅将前景点输入到下一阶段网络处理。
Point-UNet的结构如下图所示,输入的视锥里的3D点维度NX(3+1),N代表点数目,3代表点的3D坐标,1代表3D点的反射率,以及NX3的图像编码特征。图中的SA可以视为PointNet,PointSIFT可以视为PointNet++。
在这里插入图片描述

T-Net:如下图左所示,就是PointNet论文中的T-Net,这个小网络的作用就是预测3D框的中心,并将上一阶段输入(维度NX4)的前景点的左边远点转到这个预测的中心。
在这里插入图片描述

Point-SENet: 结构如上图右侧所示,用来预测最终的3D检测框(x,y,z,h,w,l,theta)。输入时经过T-Net转换的M个前景点(无反射率,每个点仅包含x,y,z坐标,维度NX3),中间用了SENet的通道注意力,最后输出的是3+4XNS+2XNH=59维的向量,3代表分类数NS代表候选3D框尺寸大小模板数目,NH代表候选朝向模板数。

实验结果:
在这里插入图片描述

效果一般。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值