告别二维!SiM3D:首个多视图多模态 3D 异常检测大杀器!

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

来源:3D视觉工坊

「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入

图片

0.这篇文章干了啥?

这篇文章提出了 SiM3D,首个专注于整合多视图和多模态信息以进行全面 3D 异常检测和分割(ADS)的基准和数据集。现有 ADS 基准大多聚焦 2D 检测且未有效解决 3D 空间缺陷精确定位、单实例检测及合成训练数据到真实测试数据泛化等问题。SiM3D 数据集包含 8 种制造对象的 333 个实例,通过工业传感器和机器人采集多视图高分辨率图像(12 Mpx)和点云(约 7M 点),并提供 CAD 模型用于合成扫描。每个对象仅保留一个标称样本作为单实例训练集,其余样本构成测试集。文章还开发了两步标记策略以获取精确的 3D 分割真值。基于该数据集,文章创建了首个 3D 异常检测基准,任务是预测体素化 3D 异常体积内的异常分数,而非 2D 异常图。基准包含 real2real 和 synth2real 两种设置,并提出实例级 AUROC(IAUROC)和体素级 AUPRO(V - AUPRO)评估指标。为建立基线,文章将主流单视图方法扩展到多视图 3D ADS 任务,实验结果显示,原生处理 RGB 图像的方法在两种设置下的检测和分割性能优于多模态方法,Patchcore 在多视图 3D 任务中表现最佳。使用深度图代替点云可提高多模态方法性能,但 RGB 图像仍更具优势。最后,文章指出当前研究存在多视图输入处理方法不足、合成数据训练需解决域转移、缺乏处理高分辨率点云的 3D 骨干网络等挑战,认为 SiM3D 可为解决这些问题和推动未来研究奠定基础。

下面一起来阅读一下这项工作~

1. 论文信息

  • 论文题目:SiM3D: Single-instance Multiview Multimodal and Multisetup 3D Anomaly Detection Benchmark

  • 作者:Alex Costanzino、Pierluigi Zama Ramirez、Luigi Lella 等

  • 作者机构:CVLab, University of Bologna, Italy;SACMI Imola, Italy

  • 论文链接:https://arxiv.org/abs/2506.21549

2. 摘要

我们提出了 SiM3D,这是首个考虑将多视图和多模态信息集成用于全面 3D 异常检测与分割(ADS)的基准,其任务是生成基于体素的异常体积。此外,SiM3D 聚焦于制造业中一个备受关注的场景:单实例异常检测,即训练时仅使用一个真实或合成的对象。在这方面,SiM3D 是首个应对从合成训练数据泛化到真实测试数据这一挑战的 ADS 基准。SiM3D 包含一个使用顶级工业传感器和机器人采集的新型多模态多视图数据集。该数据集包含八种类型对象的 333 个实例的多视图高分辨率图像(1200 万像素)和点云(约 700 万个点),以及每种类型的 CAD 模型。我们还为异常测试样本提供了手动标注的 3D 分割真值。为了为所提出的多视图 3D ADS 任务建立参考基线,我们对著名的单视图方法进行了调整,并使用对异常体积进行操作的新指标评估它们的性能。

3. 效果展示

图2: 二维与三维异常检测与分割。典型的ADS基准测试依赖于二维异常图和二维真实值(左图)来评估分割性能。SiM3D提出通过3D异常体积和3D地面实况(右)来实现这一目标。

4. 主要贡献

  • 提出 SiM3D,这是首个考虑多视图和多模态信息集成以进行全面 3D 异常检测和分割(ADS)的基准,任务是生成基于体素的异常体积。它专注于制造领域中备受关注的单实例异常检测场景,也是首个解决从合成训练数据泛化到真实测试数据挑战的 ADS 基准。

  • 构建了一个新颖的多模态多视图数据集,使用顶级工业传感器和机器人采集,包含 8 种类型的 333 个实例的多视图高分辨率图像(12 Mpx)和点云(约 700 万个点),以及每种类型的 CAD 模型,并为异常测试样本提供手动标注的 3D 分割真值。

  • 创建了第一个 3D 异常检测基准,包含基于训练数据领域的两种设置(real2real 和 synth2real),将突出的 ADS 方法(单模态和多模态)进行调整以适应多视图 3D ADS 任务,并在该基准上进行评估。

  • 为评估分割性能,提供准确的 3D 真值,并将 ADS 指标扩展到在 3D 体素网格上指定的异常分数和真值上进行操作,提出体素级 AUPRO(V - AUPRO)指标。

5. 基本原理是啥?

1. SiM3D 基准的提出
  • 背景与目的:现有 3D 异常检测与分割(ADS)基准多关注 2D 任务,且多数需要多个训练样本,缺乏多视图和多模态信息的整合,以及对合成训练数据到真实测试数据泛化能力的考量。为填补这些空白,提出 SiM3D 基准,用于全面的 3D 异常检测和分割。

  • 数据集特点:包含 8 种制造对象的高分辨率扫描数据,每个扫描有多个视图,包含灰度图像、点云、集成 3D 网格和真实采集姿态。每个对象仅用一个标称样本作为单实例训练集,其余作为测试集,同时提供合成扫描数据以促进解决域差距问题的研究。

2. 数据集创建
  • 材料准备与采集设置:扫描 8 种不同的制造对象,手动引入不同类型的缺陷模拟现实制造瑕疵。使用 Atos Q 3D 扫描仪,安装在工业机械臂上,对相机和传感器进行校准。

  • 数据收集:对所有对象实例进行 360 度扫描,从多个角度采集数据。同时使用 Blender Python API 渲染合成数据,使其与真实数据对齐。

  • 标注:采用两步标注策略,先手动标注 2D 图像获得密集分割掩码,再将 2D 标注投影到集成网格上并手动细化,最后转换为体素网格。

3. SiM3D 基准
  • 数据集、任务和指标

    • 数据集和设置:收集 333 个对象实例,分为训练集和测试集,有 real2real 和 synth2real 两种设置。

    • 任务:使用多视图和多模态数据进行对象异常检测和分割,输出体素化的 3D 异常体积。

    • 指标:使用实例级 AUROC(IAUROC)评估检测性能,体素级 AUPRO(V - AUPRO)评估分割性能。

  • 基线:将流行的单视图 ADS 方法扩展到多视图 3D ADS 任务,对数据进行预处理以去除背景噪声。选择 PatchCore、EfficientAD、BTF、M3DM、CFM 等方法作为基线进行评估。

4. 基准结果
  • 主要结果:原生处理 RGB 图像的方法在检测和分割性能上优于原生多模态方法,基于内存银行的方法表现略好于需要大量训练的方法。Patchcore 在多视图 3D 任务中表现最佳,但 real2real 和 synth2real 设置之间存在较大性能差距。

  • 替代 3D 表示:使用深度图代替点云在多模态方法中可提高检测和分割性能,但 RGB 图像仍优于深度图。

5. 最终讨论

提出 SiM3D 基准和数据集,实验揭示了一些开放性挑战,包括需要更有效地处理多视图输入的方法、解决合成数据训练时的域转移问题的鲁棒技术,以及能够处理高分辨率点云的 3D 骨干网络。

6. 实验结果

1. 基准整体性能评估

  • 检测与分割性能对比:在 SiM3D 基准上,原生仅处理 RGB 图像的方法在 real2real 和 synth2real 两种设置下的检测(I - AUROC)和分割(V - AUPRO@1%)性能均优于原生多模态方法。这可能是因为现有多模态方法设计和调优时所针对的点云分辨率远低于 SiM3D 的约 230 万点(下采样后),当前多模态 ADS 方法难以适应高分辨率数据。

  • 单实例设置影响:依赖内存库的方法(如 PatchCore 和 M3DM)在平均检测和分割性能上略优于需要大量训练的方法(如 EfficientAD 和 CFM)。这可能归因于单实例设置,有限的训练图像数量使得后一类方法难以优化。

  • 最佳方法表现:Patchcore 是最能有效扩展到多视图 3D 任务的方法。在 real2real 设置下,配备 WRN - 101 时 I - AUROC 为 0.754,V - AUPRO@1% 为 0.630;配备 DINO - v2 时 I - AUROC 为 0.678,V - AUPRO@1% 为 0.671。在 synth2real 设置下,配备 WRN - 101 时 I - AUROC 为 0.451,V - AUPRO@1% 为 0.600;配备 DINO - v2 时 I - AUROC 为 0.540,V - AUPRO@1% 为 0.596。推荐课程:工业视觉检测如何检测低对比度缺陷?

  • 域转移影响:由于域转移,real2real 和 synth2real 设置在最佳检测(0.754 vs. 0.540,I - AUROC)和分割性能(0.671 vs. 0.600,V - AUPRO@1%)上存在较大差距。

2. 替代 3D 表示实验

  • 深度图作为输入的效果:因缺乏处理高分辨率点云的特征提取器,实验探索了使用深度图作为输入模态。结果显示,多模态方法使用深度图而非点云时,检测和分割性能有显著提升。例如,在 real2real 设置下,BTF 处理深度图时 I - AUROC 为 0.707,V - AUPRO 为 0.609;处理点云时 I - AUROC 为 0.478,V - AUPRO 为 0.444。

  • RGB 图像与深度图对比:RGB 图像表现优于深度图。Patchcore 使用图像作为输入时效果远好于基于深度图的对应方法,总体上是基准中的最佳基线,仅在 real2real 设置的分割任务中被 CFM(RGB + Depth)超越。这可能是因为计算深度特征的特征提取器是在 RGB 图像上预训练的,处理深度输入时可能产生较弱的特征。

7. 总结 & 未来工作

总结

本文提出了 SiM3D,这是首个专注于集成多视图和多模态信息以实现全面 3D 异常检测和分割(ADS)的基准和数据集。SiM3D 聚焦于制造业中极具价值的单实例异常检测场景,即仅使用一个真实或合成的对象进行训练,并且是首个应对从合成训练数据到真实测试数据泛化挑战的 ADS 基准。

文章创建了新颖的多模态多视图数据集,使用顶级工业传感器和机器人采集数据,包含高分辨率图像、点云和 CAD 模型,还为异常测试样本提供了手动标注的 3D 分割真值。为建立多视图 3D ADS 任务的参考基线,作者对著名的单视图方法进行了适配,并使用基于异常体积的新指标评估其性能。

实验结果表明,原生仅处理 RGB 图像的方法在真实到真实和合成到真实两种设置下均优于原生多模态方法,当前的多模态 ADS 方法难以扩展到高分辨率数据。基于内存库的方法,如 PatchCore 和 M3DM,在检测和分割性能上略优于需要大量训练的方法。Patchcore 在多视图 3D 任务中表现最佳。

未来与展望

本文的实验凸显了几个开放性挑战,为未来研究指明了方向:

  • 开发更有效的多视图处理方法:需要能够更有效地处理多视图输入的方法,例如直接将所有视图作为输入,而不是整合单视图输出,并且能够使用非常有限数量的正常样本(如单个对象实例)进行训练。

  • 解决合成数据训练的域偏移问题:使用合成数据进行训练需要更强大的技术来应对域偏移挑战。

  • 开发高分辨率 3D 骨干网络:当前文献中缺乏能够处理高分辨率点云的 3D 骨干网络。使用深度图似乎是促进此类处理的有前途的策略,但仍然缺少用于深度图的基础模型。作者认为 SiM3D 可以为解决这些挑战提供坚实的基础,并推动 3D ADS 领域的未来研究。

本文仅做学术分享,如有侵权,请联系删文。

3D视觉硬件,官网:www.3dcver.com

3D视觉学习圈子

「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入

3D视觉全栈学习课程:www.3dcver.com

3D视觉交流群成立啦,微信:cv3d001

添加微信:cv3d001,备注:方向+单位,邀你入3D视觉交流群!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值