研究背景
- 当前零样本工业异常检测方法依赖于在自然场景图像中预训练的大模型
- 自然图像与工业图像之间存在较大差距,相比自然场景中的“猫”、“狗”等具体强语义物体,工业场景中“异常”、“缺陷”等具有典型的抽象弱语义特性,大部分是由局部图像纹理区域构成,缺乏独立语义,因此建立图文对应关系的难度较大
- 在工业异常领域中,除了外观缺陷,例如划痕等,还存在大量的逻辑缺陷,例如某个产品器件在产品中缺少了,这种情况只有参考正常图片,才能对其进行定位。现有零样本异常检测方法没有引入任何正常样本信息,因此对于逻辑类缺陷尚无法有效处理
创新点
第一个提出仅使用零样本图像进行异常检测与异常分割的方法
- 提出多聚合度邻域聚合模块(LNAMD)
- 提出无标签图片互打分缺陷检测和分割方法
- 提出分类优化模块(RsCIN)
核心思路
1.通过特征提取器提取每个无标签图像的图像级特征和区域级特征
2.将区域级特征输入到多聚合度邻域聚合模块(LNAMD)中,提高特征对不同大小异常区域的表达
3.提出了互打分模块(MSM),无标签测试图像彼此间进行相互打分,得到异常分割结果和粗异常分类结果
4.提出了一个通用的分类优化模块RsCIN对粗异常分类结果进行优化
多聚合度领域聚合模块(LNAMD)
通过聚合1x1 、3x3 和 5x5 三种不同大小的邻域特征,以获得对不同大小异常区域的表达,具体而言,小邻域聚合适合分割较小的异常区域(如上图(a)),大邻域聚合适合完整分割较大的异常区域(如上图(c)),多种大小邻域聚合特征的组合能够适应不同大小的异常区域。
1.定义无标签测试集为
,使用特征提取器(ViT)提取图像 的patch tokens为
,其中 M 为patch的数量
2.将
转换为
的形状,对于每一个patch token,使用自适应平均池操作聚合它的r x r 邻域,得到聚合后的特征为
为不同的聚合度
3.将形状还原回
,并定义每个聚合后的patch token为
4.将ViT划分为 L个块,
互评分模块(MSM)
互打分模块基于“不同图像的正常区域较为相似,异常区域不相似”的事实,其他图像将为当前图像的每个区域分别进行打分,然后使用分数最低的30%进行区间平均得到每个区域的异常分数。由此获得异常分割结果和粗分类结果
1.利用 {Du\Ii} 中的每个图像为阶段 l 中测试图像 Ii 的每个聚合补丁标记分配异常分数
其中r 是聚合尺度,
定义评分向量
2.区间平均
对于 (c) 中的重叠,我们注意到它是由一些正常斑块引起的,这些斑块具有不同正常图像的外观变化,这些斑块被不同的斑块分配了更高的分数。为了减少评分中的这些不同斑块,使用区间平均
间隔平均最小值 X%,其中 I 是最小 X% 值区间内的图像,K 是这些图像的数量
3.使用如下公式将所有聚合度 r 和所有ViT块 L 的分数进行平均