Segment3D: Learning Fine-Grained Class-Agnostic 3D Segmentation without Manual Labels
方法流程
3D分割不能很好地泛化到未见过的域,并且需要额外的特定于域的注释。2D 模型泛化能力和零样本能力强,启发:将 2D 模型的这些特征融入到 3D 模型中。
首先使用 SAM 自动生成的 2D 掩模来预训练与类别无关的 3D 分割模型,这些掩模被投影到部分 RGB-D 点云。RGB-D和点云存在域差异。为此,在第二阶段,我们利用预训练模型的高置信度掩模预测作为训练信号,以自监督的方式在全 3D 点云上微调模型。
启发式合并规则过程引入了大量噪声。此外,大量的图像推理和繁琐的合并过程,导致速度很慢。Segment3D(右)利用3D 模型直接分割整个 3D 场景。
Stage2 预训练预测中选高Score的参与监督,只对mask做loss,不对是否“object”做loss,如果将正确的mask预测为“无效”物体对训练有害(可理解为标签噪声的影响)