基于感知能力的点云实例分割

点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

来源:OpenCV中文网

论文标题:Instance-Aware Embedding for Point Cloud Instance Seg

论文链接:https://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123750256.pdf

论文发表:ECCV2020

目前尚未开源。

1

引言

该论文是关于点云的语义分割和实例分割类的文章。在计算机视觉点云是一个非常常见的概念,它特指在某个坐标系下点的数据集,其中每个点包含了丰富的信息,包括三维坐标X,Y,Z、颜色、分类值、强度值、时间等。点云可以将现实世界原子化,通过高精度的点云数据可以还原现实世界,可以说万物皆点云。点云语义分割简单的说就是给每个点一个label,比如说这个点是电脑还是杯子。

实例分割是指在语义分割的同时,把每个不同的物体给分割出来,比如一个房间里有很多物品,将这些物体中点进行分类。要知道在二维图像中进行实例分割可以达到一个不错的效果,但是对于三维点云的研究却远远落后。

传统的方法使用半径搜索或其他类似的方法来聚集局部信息。然而,这些方法不知道实例的上下文,无法实现实例的边界和几何信息,这对分离相邻对象至关重要。在该论文中作者通过提出一个实例感知模块来研究三维实例感知知识的影响。并且实验结果在精度和效率上都优于以往的方法。

2

论文贡献

该论文的贡献可以归结为如下三点,分别如下所示:

•作者提出了一个新的实例感知模块,成功地编码了与实例相关的上下文信息,用于三维点云实例分割。

•该方法对实例相关的几何信息进行显式编码,信息量大,有助于生成有区别的嵌入特征。

•该框架可以进行端到端的训练,在效率和有效性上都优于以往的方法。利用所提出的方法,可以在不同的任务上获得最新的结果。

3

模型介绍

3.1网络结构

论文中作者采用了一个Encoder-Decoder架构,编码器由两个任务共享。输入为点集为点的总数,为输入特征维数,其中输入特征包括颜色和位置信息,如X、Y、Z、R、G、B。解码器包含两个并行分支:一个用于语义分割,另一个实例嵌入编码。语义分割分支生成逐点分类结果,其中为类别数。焦点损失用于解决训练过程中的类别不平衡。

此外,每个点的编码向量的实例分支输出具有学习距离度量的特征,其中为嵌入维数。属于同一个实例的编码向量应该聚集在一起,属于不同实例的编码向量应该结束相隔甚远。在推理过程中,采用聚类算法得到最终的分组结果。通过检测实例的空间扩展,实现了一种新的生成实例感知知识。具体的模型结构图如下所示:


3.2实例感知模块

作者提出了一个实例感知模块(IAM),主要用于选择捕捉空间实例上下文的代表点。对于点位置是,点水平偏移由上下文检测分支进行预测,以表示实例的空间扩展,表示为实例的预测代表区域为,可以简单地表示为:

其中是代表点的数目,代表第i个点。通过一个最小最大函数可以将每个点预测的轴对齐边界框进行表示。

学习这些具有代表性的区域是由空间边界框和实例分组标签共同驱动的,这样就可以紧密地包围实例。论文中提供了三种损失:最大化预测和真实之间边界框的重叠。在论文中3D IoU的损失如下所示:

其中是点的总数,是第点的预测边界框,是第点的三维轴对齐边界框真实值。绿色点被选为,而红色点是预测的。如下图所示:显示检测到的代表点。绿色点是随机选择的,红色点是IAM输出的相应有意义区域。


3.3实例分支

通常情况下,实例解码器的输入是下采样点,相应的特征表示为。这些特征通过几个上采样层逐渐传播到整个点集。为了在传播过程中对实例上下文进行编码,作者利用的有意义语义区域作为采样点。

3.3.1编码实例感知上下文

通过从包含实例空间范围的中聚合信息来增强的表示。由于这些检测点不一定位于输入点上,因此采用KNN对RGB特征进行插值。然后将插值特征添加到原始中,生成包含局部表示和实例上下文的特征。在解码过程中,组合特征逐渐上采样,通过所有点传播实例感知上下文。

3.3.2 编码几何信息

几何信息对于识别两个接近的物体至关重要,为了学习有区别的编码特征,论文中直接将标准化的坐标质心连接到嵌入空间。考虑到由点预测的质心为,其中是计算给定包围盒几何质心的函数,最终的逐点嵌入特征可以表示为,其中是实例分支产生的嵌入特征。为了使具有相同实例标签的点的几何信息保持一致,将预测的几何质心从同一实例拉向簇中心,方法是:

其中是实例总数,是第个实例的点数。表示第个实例的平均预测几何质心,定义为松约束。旨在迫使附加的几何信息具有较小的变化,并为分离相邻对象提供信息。

利用信息量逐点嵌入学习距离度量,该距离度量可以将实例内嵌入拉向簇中心,并使实例中心彼此远离。损失函数公式如下所示:

其中是实例总数,是第个实例的点数。是软间隔。在训练过程中,第一项将实例簇相互推开,第二项将嵌入项拉向簇中心。在推理过程中,采用快速mean-shift算法对嵌入空间中的不同实例进行聚类。该方法是可以进行端到端训练的,并且有四个损失进行监督,如下所示:

4

实验结果

4.1数据集

该论文采用了三个具有实例注释的流行数据集:斯坦福三维室内语义数据集(S3DIS)、scannetw2和PartNet。S3DIS收集在6个大型室内区域,覆盖272个房间。整个数据集包含超过2.15亿个点,由13个常见语义类别组成。

ScanNetV2是一个RGB-D视频数据集,它包含1500多个扫描,分为1201、300和100个扫描,分别用于训练、验证和测试。该数据集共包含40 个类,对13个类别进行了求值。与上述两个数据集不同,PartNet是一个具有细粒度对象注释的一致的大型数据集。它由57000多个零件实例组成,涵盖24个对象类别。每个对象包含10000个点。

4.2评价指标

语义分割的评价指标是整体像素精度(mAcc)、类别平均准确度(oAcc)和平均交合并(mIoU)。实例分割采用平均实例覆盖率(mCov)、平均加权实例覆盖率(mW-Cov)、平均实例精度(mP-rec)和召回率(mRec)。

4.3实例感知模块

作者研究了所提出的实例感知模块的影响,该模块首先找出实例的代表点,然后对这些采样点的特征进行聚合。对空间扩展知识进行编码有助于分离和区分封闭实例。定性结果如下图所示,由于成功地编码了实例上下文和几何信息,论文的方法产生了区分结果,特别是对于附近的对象。论文所提出的方法显示出对密集场景的鲁棒性,这些场景需要更多的区分特征来区分不同的实例。


4.4 S3DIS的定量结果

如下表所示为语义分割任务的性能结果。采用的是6倍交叉验证进行评估。作者的方法建立在普通的PointNet++上,与使用多视图甚至图形CNN的方法相比,获得了更好的结果。


定性实例分组结果如下图所示。作者的方法与ASIS的性能进行了比较,显示了编码的实例感知知识的有效性。


4.5 ScanNetV2上的定量结果

ScanNetV2的定量性能如下表所示。和最新的ASIS相比,作者的方法取得了比较不错的结果,mAP@0.25和mAP@0.5分别提高了8.4%和6.5%。


下图显示了Scannetw2上实例分割的定性结果。


4.6 PartNet上的定量结果

PartNet上的性能如下表所示。与室内场景不同,PartNet提供了细粒度和层次化的对象部件注释。级别1包含最粗糙的批注,级别3包含最精细的批注。训练样本数量最多的五个类别分别是:椅子、储藏室、桌子、灯和花瓶。论文的方法在大多数类别和级别上都取得了最先进的结果,大大提高了性能。


下图显示了PartNet上实例分割的定性结果,并提供了不同的类别和细粒度级别。


本文仅做学术分享,如有侵权,请联系删文。

下载1

在「3D视觉工坊」公众号后台回复:3D视觉即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计汇总等。

下载3

在「3D视觉工坊」公众号后台回复:相机标定即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配即可下载独家立体匹配学习课件与视频网址。

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

 圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

### 点云实例分割概述 点云实例分割旨在识别三维空间中的不同物体,并将其区分为独立的实例。这一过程通常涉及将点云数据划分为多个有意义的部分,每个部分对应于一个特定的对象实例。 #### 自下而上方法的特点与局限性 现有的一些3D实例分割方法主要采用自下而上的设计思路,即先通过某种方式将点聚集成为簇(cluster),再利用细化网络优化这些初步形成的集群[^3]。这种方法虽然直观有效,但在处理某些复杂情况时会遇到困难: - 当相邻对象属于同一类别时,可能会被错误地合并到一起; - 对于那些拥有较大尺寸且内部结构较为复杂的实体而言,其边界可能不够清晰,从而影响最终效果。 #### Cluster-Free 方法介绍 针对上述挑战,ISBNet 提出了 cluster-free 的解决方案,该方案不依赖传统的聚类操作而是直接学习如何区分不同的实例。具体来说,ISBNet 将每一个实例视为由一组核心点(kernel points)所代表,并借助动态卷积技术解码出对应的实例掩模(instance masks)。此外,为了提升模型的表现力以及效率,研究者们还开发了一系列辅助机制和技术手段,比如实例感知最远点采样(Instance-aware Farthest Point Sampling, IFPS)用于高效选取有代表性样本点;基于PointNet++架构下的局部特征聚合(Local Feature Aggregation Layers)则有助于更好地捕捉几何特性;而在预测过程中引入轴向对齐边框(Axis-Aligned Bounding Boxes)更是显著增强了系统的鲁棒性和准确性。 #### 数据预处理与建筑实例检测 在实际应用中,对于建筑物这样的大规模静态目标,可以通过语义分割先行过滤掉无关背景信息,仅保留潜在感兴趣的前景区域作为后续分析的重点。例如,在给定的一组LiDAR扫描所得的数据集中,可以运用专门训练过的神经网络自动标记哪些位置更有可能包含房屋、桥梁等人工构筑物的信息。随后,采取诸如FPS(Farthest Point Sampling)之类的技术从剩余的有效范围内挑选适量的关键节点充当初始假设中心[citation needed][^4]。这样做不仅简化了计算流程同时也提高了定位精度。 ```python import numpy as np from sklearn.cluster import DBSCAN def preprocess_point_cloud(points): """ 预处理点云数据,移除异常值并执行降维。 参数: points (numpy.ndarray): 输入点云坐标数组 返回: processed_points (numpy.ndarray): 处理后的点云数据 """ # 移除离群点 clustering = DBSCAN(eps=0.5, min_samples=10).fit(points) core_samples_mask = np.zeros_like(clustering.labels_, dtype=bool) core_samples_mask[clustering.core_sample_indices_] = True labels = clustering.labels_ n_clusters_ = len(set(labels)) - (1 if -1 in labels else 0) unique_labels = set(labels) processed_points = [] for k in unique_labels: class_member_mask = (labels == k) xyz = points[class_member_mask & core_samples_mask] if len(xyz) >= 20: # 过滤掉过小的簇 processed_points.append(xyz.mean(axis=0)) return np.array(processed_points) # 假设有一个函数 get_building_instance_candidates 来获取建筑物实例候选点, # 它可以根据前面提到的原则实现具体的逻辑。 building_instances = get_building_instance_candidates(preprocess_point_cloud(lidar_data)) ``` ### 实验结果对比 实验结果显示,相较于其他同类算法,ISBNet能够在保持较快推理速度的同时取得更高的平均精确度(AP),分别达到了ScanNetV2测试集上的55.9%,S3DIS上的60.8%以及STPLS3D上的49.2%的成绩。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值