1、 为什么要做这个研究(理论走向和目前缺陷) ?
估计就是为了发论文而写的,看不出要解决什么问题。
2、 他们怎么做这个研究 (方法,尤其是与之前不同之处) ?
整体来看本文就是F-PointNet的变种,创新不大。先2D检测器crop点云视锥,然后在视锥内做点云的前背景分类,然后对前景点云做坐标系变换(基于PointNet中的T-net实现)以及做最终的3D框的回归,在最终的3D框的回归时加了通道注意力。
3、 发现了什么(总结结果,补充和理论的关系)?
效果不怎么样,实验也不够充分。
摘要:提出了基于视锥点云处理SIFRNet网络,本文关注点是用图片和视锥点云实现3D目标检测。一方面,通过利用PointSIFT能够捕获朝向信息且具备尺度不变形的特性来提高3D点云分割性能,另一方面,网络还用了SE模块在在通道层面加注意力。
1、 引言
本文的方法中,用一个包含PointSIFT模块的子网络Point-UNet来实现尺度不变形并且捕获朝向信息,并将图像提取出的特征也输入到Point-UNet中实现信息融合。
SIFRNet的另外一个子网络就是T-Net,用来中心化感兴趣的点,并用Point-SENet来预测3D检测框,这里的SE模块主要用于在3D点的通道特征层面施加注意力。
2、 相关研究(略)
3、 SIFRNet
SIFRNet主要包括3部分:1)3D实例分割网络(Point-UNet),2) T-Net, 3)3D框预测网络Point-SENet。网络结构如下图所示:
Point-UNet:输入的是2D检测器预测的检测框投到3D点云视锥后,这个视锥里的3D点,同时输入到Point-UNet里的还有2D检测框对应的图片区域的特征编码,输出的是对每个点的二分类结果,即是否是前景点。仅将前景点输入到下一阶段网络处理。
Point-UNet的结构如下图所示,输入的视锥里的3D点维度NX(3+1),N代表点数目,3代表点的3D坐标,1代表3D点的反射率,以及NX3的图像编码特征。图中的SA可以视为PointNet,PointSIFT可以视为PointNet++。
T-Net:如下图左所示,就是PointNet论文中的T-Net,这个小网络的作用就是预测3D框的中心,并将上一阶段输入(维度NX4)的前景点的左边远点转到这个预测的中心。
Point-SENet: 结构如上图右侧所示,用来预测最终的3D检测框(x,y,z,h,w,l,theta)。输入时经过T-Net转换的M个前景点(无反射率,每个点仅包含x,y,z坐标,维度NX3),中间用了SENet的通道注意力,最后输出的是3+4XNS+2XNH=59维的向量,3代表分类数NS代表候选3D框尺寸大小模板数目,NH代表候选朝向模板数。
实验结果:
效果一般。