【3D目标检测】3D Object Detection Using Scale Invariant and Feature Reweighting Networks文献解读（2019）

最新推荐文章于 2022-08-29 16:29:24 发布

原创最新推荐文章于 2022-08-29 16:29:24 发布 · 1.1k 阅读

5 ·

CC 4.0 BY-SA版权

自动驾驶同时被 3 个专栏收录

20 篇文章

订阅专栏

3D目标检测

12 篇文章

订阅专栏

深度学习

10 篇文章

订阅专栏

1、为什么要做这个研究（理论走向和目前缺陷） ?
估计就是为了发论文而写的，看不出要解决什么问题。
2、他们怎么做这个研究（方法，尤其是与之前不同之处） ?
整体来看本文就是F-PointNet的变种，创新不大。先2D检测器crop点云视锥，然后在视锥内做点云的前背景分类，然后对前景点云做坐标系变换（基于PointNet中的T-net实现）以及做最终的3D框的回归，在最终的3D框的回归时加了通道注意力。
3、发现了什么（总结结果，补充和理论的关系）?
效果不怎么样，实验也不够充分。

摘要：提出了基于视锥点云处理SIFRNet网络，本文关注点是用图片和视锥点云实现3D目标检测。一方面，通过利用PointSIFT能够捕获朝向信息且具备尺度不变形的特性来提高3D点云分割性能，另一方面，网络还用了SE模块在在通道层面加注意力。

1、引言
本文的方法中，用一个包含PointSIFT模块的子网络Point-UNet来实现尺度不变形并且捕获朝向信息，并将图像提取出的特征也输入到Point-UNet中实现信息融合。
SIFRNet的另外一个子网络就是T-Net，用来中心化感兴趣的点，并用Point-SENet来预测3D检测框，这里的SE模块主要用于在3D点的通道特征层面施加注意力。

2、相关研究（略）
3、 SIFRNet
SIFRNet主要包括3部分：1）3D实例分割网络（Point-UNet）,2) T-Net， 3）3D框预测网络Point-SENet。网络结构如下图所示：
在这里插入图片描述

Point-UNet：输入的是2D检测器预测的检测框投到3D点云视锥后，这个视锥里的3D点，同时输入到Point-UNet里的还有2D检测框对应的图片区域的特征编码，输出的是对每个点的二分类结果，即是否是前景点。仅将前景点输入到下一阶段网络处理。
Point-UNet的结构如下图所示，输入的视锥里的3D点维度NX（3+1），N代表点数目，3代表点的3D坐标，1代表3D点的反射率，以及NX3的图像编码特征。图中的SA可以视为PointNet，PointSIFT可以视为PointNet++。
在这里插入图片描述

T-Net：如下图左所示，就是PointNet论文中的T-Net，这个小网络的作用就是预测3D框的中心，并将上一阶段输入（维度NX4）的前景点的左边远点转到这个预测的中心。
在这里插入图片描述

Point-SENet: 结构如上图右侧所示，用来预测最终的3D检测框(x,y,z,h,w,l,theta)。输入时经过T-Net转换的M个前景点（无反射率，每个点仅包含x,y,z坐标，维度NX3），中间用了SENet的通道注意力，最后输出的是3+4XNS+2XNH=59维的向量,3代表分类数NS代表候选3D框尺寸大小模板数目，NH代表候选朝向模板数。

实验结果：
在这里插入图片描述