基于深度学习的三维点云识别
一、什么是三维物体识别
随着三维成像技术的发展,结构光测量、激光扫描、ToF等技术趋于成熟,物体表面的三维坐标能够精准而快速的获取,从而生成场景的三维数据,能够更好地感知和理解周围环境。三维数据包含了场景的深度信息,能够表示物体的表面形状,在机器人、AR/VR、人机交互、遥感测绘等多个领域具有广阔的应用前景。
三维数据由传感器直接获得,可以表示为深度图、点云、网格、CAD等不同形式。其中点云数据获取便捷,易于存储,具有离散和稀疏特性,方便扩展为高维的特征信息,是近年来的研究主流方向。
然而,与二维图像中像素的规则排列方式不同,点云数据是无序的 ,这使得它很难直接应用卷积来获取三维点之间的局部相关性信息。同时,由于采集方法的原因,点云数据常常是非均匀分布的,不同局部区域的点云密度常常不等,这会为特征提取时,数据点的采样带来困难。此外,三维空间中物体的形变较二维图像更为复杂,除三个维度的仿射变换外,还有非刚体形变需要考虑。
二、三维物体识别方法
按照特征提取方式分类,三维物体识别方法可以分为基于手动设计提取特征的方法和基于深度学习的方法两种。其中,手动设计特征的方法较为成熟,在一些领域有所应用。而基于深度学习的方法是近年来的研究热点。
2.1 基于手动提取特征的方法
此类方法从三维点的几何属性、形状属性、结构属性等方面提取三维空间特征,统计关键点局部邻域的空间分布信息,计算空间分布直方图,得到特征向量等描述子,输入SVM等分类器,或使用条件随机场等得到匹配结果。
根据特征的构造角度又可进行细分,其中,基于局部特征的方法主要提取物体的关键点、边缘或面片,或关键点的法向量、曲率等微分几何信息。基于全局特征的物体识别方法则需要先将目标从背景中分割出来,再计算法线夹角等几何信息来构建描述符。此外,还有基于图匹配的方法,其思想是将点云数据分解成基本形状,使用抽象点进行表示,再构造拓扑图表示形状之间的邻近关系,使用图匹配的方法进行识别。
现今基于手动提取特征的方法已经比较成熟,如HKS、FPFH等。然而,手动提取的特征仅从曲率、法方向等有限角度提取特征,而无法完全利用三维点云的全部信息。这些特征仅对某种特定的变换存在不变性,因此,此类方法所能达到的精度存在瓶颈,相较之下,基于深度学习方法更能全面利用三维点云的特征信息,拥有更大的研究前景。
2.2 基于深度学习的方法
2.2.1 难点与挑战
对于二维图片的识别任务来说,卷积神经网络是最主要的解决方法。不同大小的卷积核可以自动提取像素的局部相关性特征,从而达到很高的识别精度,卷积操作的权值共享特性也大大减少了网络优化参数。然而,图像中的像素是规则排列的,这为使用卷积创造提供了先决条件。
然而点云数据并非是在空间中规则排列的。如图所示,图i的单位为二维图像的像素,四个点有序规则排列在图片中,保留着空间结构信息。而对于图ii~图iv的点云数据,卷积算子的输入是一串点集,存在以下两种情况:
- 四个点分布于不同空间位置,相同次序输入。如图ii和图iii。对其特征做卷积,得到的结果(fii,fiii)(f_{ii},f_{iii})(f