3D目标检测的目的是根据目标的历史信息估计当前目标的位置、朝向等参数。
本文分为三个阶段:特征提取、特征匹配、预测精调。
特征提取阶段
骨干网络为PointNet++,为了解决点云随机降采样过程中,目标相关的点云丢弃过多的问题,文章采用Relation-Aware Sampling(RAS)的方法,在降采样过程中尽可能多的保留与目标相关的点云。
以往方法为了处理上述问题,采用了feature-farthest point sampling (F-FPS)等方法,但是效果有限。文章提出RAS方法进行采样,首先利用正则表示目标点云特征和搜索区域点云特征之间的相关性,其次,在目标跟踪不稳定的情况下,目标点云的语义可能误导采样,因此文章又引入随机采样的方法进行缓解。

特征匹配阶段
不同于以往的cosine similarity和linear correlation,文章提出了Point Relation Transformer (PRT),利用cross-attention进行特征匹配,特征匹配后输出目标的粗预测结果。
文章引入transformer结构用于特征匹配。本文并不是第一篇将transformer引入3D目标点云跟踪的文章,PTT是首先将transformer引入3D目标点云跟踪的文章,但该文章仅用transformer进行特征提取,特征匹配用的是cosine similarity。本文直接利用transformer进行特征匹配。
预测精调阶段
文章提出Prediction Refinement Module (PRM),在融合特征后进行目标的精确估计。
目前的3D目标跟踪方法的预测头一般用3D目标检测方法的预测头,一般实时性较差,文章提出由粗到精的预测头。首先,在特征匹配的结果上,利用MLP快速得到一个跟踪结果,该结果的性能已经优于一般跟踪方法;其次,融合模板点云特征、搜索区域点云特征、特征匹配结果,利用MLP得到最终跟踪结果。