CVPR 2020——Grid-GCN for Fast and Scalable Point Cloud Learning-CSDN博客

本文链接：https://blog.csdn.net/Dujing2019/article/details/105035670

CVPR 2020——Grid-GCN for Fast and Scalable Point Cloud Learning

论文：https://arxiv.org/abs/1912.02984
源码：https://github.com/Xharlie/Grid-GCN

Abstract

在所有基于点的模型中，图卷积网络（GCN）通过完全保留数据粒度和利用点相互关系来带来显着的性能。
但是，基于点的网络在数据结构上花费大量时间（例如，最远点采样（FPS）和邻居点查询），这限制了速度和可伸缩性。
提出了一种名为Grid-GCN的方法，用于快速和可扩展的点云学习。 Grid-GCN使用一种新颖的数据结构化策略，即Coverage-Aware Grid Query（CAGQ）。通过利用网格空间的效率，CAGQ在降低理论时间复杂度的同时提高了空间覆盖率。
与最远的点采样（FPS）和球形查询等流行的采样方法相比，CAGQ的速度提高了50倍。借助Grid Context Aggregation（GCA）模块，Grid-GCN可以在主要点云分类和分割基准上达到最新的性能，并且运行时间比以前的研究要快得多。
值得注意的是，Grid-GCN使用81920点作为输入在ScanNet上实现了50fps的推理速度。

（一）Introduction

点云数据在自动驾驶，机器人技术和无人机等应用中很受欢迎。目前，LiDAR传感器每秒可以生成数百万个点，从而提供了世界的密集实时表示。许多方法用于点云数据处理。体素模型是将点云转移到空间量化的体素网格并使用体积卷积在网格空间中执行计算的一系列模型。

使用网格作为数据结构化方法，体积方法将点关联到网格中的位置，并且3D卷积核从相邻体素收集信息。
虽然网格数据结构高效，但是必须保持较高的体素分辨率以保持数据位置的粒度。
由于计算和内存使用量随体素分辨率呈三次方增长，因此处理大型点云的成本很高。
另外，由于大多数点云中约有90％的体素是空的，因此不处理任何信息可能会消耗大量的计算能力。

基于点的模型是用于点云数据处理的另一系列模型。

与体素模型相反，基于点的模型可以进行高效的计算，但数据结构效率低下。例如，PointNet直接消耗点云而不进行量化，并在网络的最后阶段汇总信息，因此准确的数据位置是完整的，但计算成本随点数的增加而线性增长。
后来的研究在每一层应用下采样策略，将信息汇总到点组中心，因此逐层提取较少的代表性点（图1（a））。
最近，提出了图卷积网络（GCN）为网络层中的每个点组建立局部图，这可以看作是PointNet ++体系结构的扩展。但是，这种架构会导致较高的数据结构成本（例如FPS和k-NN）。

图释： Grid-GCN模型

点云分割的网络架构图。模型包含几个GridConv层，每个层都可以用于下采样或上采样过程。 GridConv层包括两个阶段：
在数据结构化阶段，Coverage-Aware Grid Query（CAGQ）模块实现了有效的数据结构化并提供了用于高效计算的点组，对代表中心进行采样并查询相邻点。
对于卷积阶段，网格上下文聚合（GCA）模块通过聚合局部上下文对点组进行图卷积，在每个点组上构建局部图，并将信息汇总到中心。
结合了体素模型和基于点的模型的优点，以同时实现高效的数据结构和高效的计算。

为了利用点关系，论文还描述了一种新颖的图形卷积模块，名为Grid Context Aggregation（GCA）。该模块执行网格上下文池以提取网格邻域的上下文特征，这有利于边缘关系计算而不会增加额外的开销。

在两个任务上演示了Grid-GCN模型：点云分类和分割。

在ModelNet40和ModelNet10上执行分类任务，并实现了93.1％（无投票权）的最新总体准确性，同时平均速度比其他模型快5倍。
对ScanNet 和S3DIS数据集执行了分割任务，与其他模型相比，平均速度提高了10倍。
值得注意的是，模型在20毫秒内处理场景中的81920个点，证明了其在实时大规模基于点的学习中的能力。 （请参阅第5.3.1节）。

（二）Related Work

基于Voxel的3D学习方法 ：尽管在数据结构方面很有效，但是体积方法的缺点是计算效率低和数据粒度损失。

用于点云学习的基于点的方法 ：基于点的方法中的计算成本随着输入点的数量线性增长。数据结构化的成本已成为大规模点云上的性能瓶颈。

点数据的数据结构策略：

大多数基于点的方法使用FPS 来抽样均匀分布的小组中心。 FPS会选择使到所选点的距离最大的点。如果中心数量不是非常少，则该方法将进行O（N2）计算。
随机点采样（RPS）的开销可能最小，但对密度不平衡敏感。论文的CAGQ模块具有与RPS相同的复杂性，但是它一次执行采样和邻居查询，甚至比使用Ball Query或k-NN的RPS更快（请参见表2）。
KPConv 使用网格子采样在占用的体素中选取点。与论文的CAGQ不同，该策略无法查询体素邻居中的点。
CAGQ还具有CoverageAware采样（CAS）算法，可以优化中心选择，与FPS相比，可以实现更好的覆盖范围。
Grid-GCN可以通过CAGQ对大量的点进行下采样，并通过考虑局部图中的节点关系来聚合信息。

用于点云学习的GCN：图卷积网络已广泛应用于点云学习。通常会为每个点组构建一个局部图，GCN会根据相关关系汇总点数据。SpecConv通过使用图傅立叶变换来混合点特征。其他研究对中心和节点之间的边缘特征进行建模。使用几何关系，或探索节点之间的语义关系。除了这些功能，论文提出的Grid Context Aggregation module 考虑了覆盖范围并提取了上下文特征以计算语义关系。

（三）Methods

3.1. Method Overview

如图1所示，Grid-GCN建立在一组GridConv图层上。每个GridConv层处理N点的信息并将其映射到M点。下采样GridConv（N> M）重复几次，直到了解到最终的特征表示为止。此表示形式可以直接用于分类等任务，或者进一步上采样通过分割任务中的上采样GridConv层（N<M)

GridConv consists of two modules:

一个涵盖范围的网格查询（CAGQ）模块，该模块从N个点中采样M个点组。每个组包括K个节点点和一个组中心。在上采样过程中，CAGQ直接通过远程连接获取中心，并且仅查询这些中心的节点。
网格上下文聚合（GCA）模块，可为每个点组构建局部图，并将信息聚合到组中心。 M组中心作为下一层的数据点传递。

3.2. Coverage-Aware Grid Query (CAGQ)

工作：在本小节中，讨论CAGQ模块的详细信息。

给定一个点云，CAGQ旨在有效地构建点云，并简化中心采样和邻居点查询的过程。
为了执行CAGQ，首先通过设置体素大小 $\left ( v_{x},v_{y},v_{z}\right )$ 对输入空间进行体素化。然后，将每个点映射到体素索引 $Vid(u,v,w)=floor(\frac{x}{v_{x}},\frac{y}{v_{y}},\frac{z}{v_{z}})$ 。
在每个体素中最多只能存储 $n_{v}$