摘要
3D物体检测器通常依赖于手工制作的方法,例如锚点或中心,并将经过充分学习的2D框架转换为3D。因此,稀疏体素特征需要通过密集预测头进行密集化和处理,这不可避免地需要额外的计算成本。在本文中,我们提出了VoxelNext来进行完全稀疏的3D物体检测。我们的核心见解是直接基于稀疏体素特征来预测对象,而不依赖于手工制作的方法。我们强大的稀疏卷积网络VoxelNeXt完全通过体素特征检测和跟踪3D物体。它是一个优雅而高效的框架,不需要稀疏到密集的转换或NMS后处理。我们的方法在nuScenes数据集上实现了比其他主机检测器更好的速度-精度权衡。我们首次证明了一个完全稀疏的基于体素的表示可以很好地用于LIDAR 3D目标检测和跟踪。在nuScenes、Waymo和Argoverse2基准测试上进行的大量实验验证了我们方法的有效性。我们的模型在nuScenes跟踪测试基准上优于所有现有的LIDAR方法。代码和模型可在github.com/dvlab-research/VoxelNeXt上获得。
引言
锚点和中心首先是为规则和网格结构的图像数据设计的,不考虑3D数据的稀疏性和不规则性。这种方法将3D稀疏特征转换为2D密集特征,从而为有序的锚点或中心构建密集的检测头。尽管有用,但这种密集的头部传统会导致其他限制,包括效率低下和管道复杂。
在图1中,我们将CenterPoint中的热图可视化[57]。很明显,很大一部分空间的预测分数几乎为零。由于固有的稀疏性和背景点多,只有少数点有响应,即nuScenes验证集中Car类的平均响应不到1%。然而,密集预测头根据密集卷积计算的要求对特征映射中的所有位置进行计算。它们不仅浪费了大量的计算,而且由于冗余的预测而使检测管道复杂化。它需要使用非最大抑制(NMS),如后处理来删除重复检测
在本文中,我们提出了VoxelNeXt。它是一个简单,高效,无后处理的3D物体检测器。我们设计的核心是一个体素到对象的方案,它通过一个强大的全稀疏卷积网络,直接从体素特征预测3D对象。
我们在图2中说明了主流3D探测器和我们的pipeline的区别。
高推理效率是由于我们的体素到目标方案避免了密集的特征映射。它只对稀疏和必要的位置进行预测,如表1所示,与CenterPoint[57]进行比较。这种表示也使得voxelnext可以很容易地扩展到使用离线跟踪器的3D跟踪。先前的工作[57]只跟踪预测的对象中心,这可能涉及到对其位置的预测偏差。在VoxelNeXt中,查询体素,即用于框预测的体素,也可以被跟踪以进行关联。
【NDS】在目标检测任务中,NDS(Normalized Detection Score)是一个综合评价指标,用于衡量模