CVPR 2025 | 清华华科大联手!INP-Former刷新工业检测天花板,单图秒级检测异常!

1. 【导读】

​​​​

论文信息

标题:Exploring Intrinsic Normal Prototypes within a Single Image for Universal Anomaly Detection
作者:Wei Luo, Yunkang Cao, Haiming Yao, Xiaotian Zhang, Jianan Lou, Yuqi Cheng, Weiming Shen, Wenyong Yu
作者机构: 1. 清华大学精密仪器系 2. 华中科技大学机械科学与工程学院
论文链接:https://arxiv.org/abs/2503.02424v1
项目链接:https://github.com/luow23/INPFormer

更多优质内容需要的同学看文末!

2. 【摘要】

该研究提出了一种名为INP-Former的新型异常检测方法,旨在解决现有方法依赖训练集正常参考导致的对齐难题。研究者观察到,即使在异常图像中也存在有价值的正常信息,且这些信息与异常同属同一图像,可能更易于对齐。基于此,INP-Former直接从测试图像中提取内在正常原型(INPs),而非依赖训练集的外部正常性。

具体而言,该方法通过INP提取器对正常标记进行线性组合以表示INPs,并引入INP一致性损失确保INPs准确表征测试图像的正常性。INP引导解码器在INPs的指导下仅重建正常标记,将重建误差作为异常分数。为优化训练过程,研究者还设计了软挖掘损失,以聚焦难以优化的样本。

实验结果表明,INP-Former在MVTec-AD、VisA和Real-IAD数据集的单类、多类和少样本异常检测任务中均表现出先进性能,且具备一定的零样本检测能力。

3. 【研究背景】

异常检测(AD)在工业检测、医学筛查等领域具有重要应用价值,其核心目标是通过学习正常样本建模“正常性”,进而识别异常模式。现有方法普遍依赖训练数据中的正常参考来评估测试图像的异常程度,但这种模式存在显著局限性:

  1. 跨样本对齐难题:训练集与测试图像的外观、位置差异可能导致“正常性”建模失准。例如,少样本场景中,类内差异可能使预存原型无法覆盖测试图像的正常变化(如不同外观和位置的榛子);多类场景中,某类的正常原型可能与另一类的异常特征相似(如榛子的正常背景与电缆的异常区域),导致误检。
  2. 现有改进的局限性:尽管部分研究尝试通过空间对齐、特征分块等方式优化训练集原型与测试图像的匹配,但类内差异仍可能导致对齐不充分,且这些方法仍依赖训练数据,无法根本解决跨样本差异问题。

在此背景下,研究者提出:若直接从测试图像本身提取正常原型(即“内在正常原型”,INPs),可利用异常图像中保留的正常区域信息,避免训练集与测试图像的跨样本差异,从而更精准地对齐异常区域与正常原型。这一思路为解决异常检测中的对齐难题提供了全新视角。
Motivation for Intrinsic Normal Prototypes (INPs)

4.【主要贡献】

论文的主要贡献如下:

  1. 提出内在正常原型(INPs)概念
    研究者发现单张图像中存在可用于异常检测的内在正常原型(INPs),即异常图像中的正常区域可作为紧凑且对齐的正常性表示,缓解了传统方法依赖训练集原型导致的跨样本对齐问题。

  2. 设计INP-Former框架

    • INP提取器:通过可学习的跨注意力机制,从测试图像中动态提取INPs,利用全局语义信息聚合正常特征,避免了手工设计特征的局限性。
    • INP引导解码器:将INPs融入重建框架,通过组合离散INPs准确重建正常区域,并抑制异常区域的重建,以重建误差作为异常分数,提升检测精度。
  3. 创新损失函数

    • INP一致性损失(INP Coherence Loss):确保提取的INPs仅表征正常特征,避免包含异常区域,增强正常性表示的纯度。
    • 软挖掘损失(Soft Mining Loss):动态调整训练样本权重,聚焦难优化的正常区域,提升重建质量和检测性能。
  4. 通用异常检测性能突破

    • 多场景有效性:在MVTec-AD、VisA、Real-IAD数据集的单类、多类、少样本异常检测任务中均达到 state-of-the-art(SOTA)性能,且计算复杂度显著低于自注意力机制。
    • 零样本检测能力:模型可从 unseen 类别图像中提取INPs,展现出一定的零样本异常检测潜力。
  5. 方法论启示
    首次验证了单张图像内正常原型的普适性,为通用异常检测提供了“数据自洽”的新范式,无需依赖外部训练数据的先验知识,为后续研究奠定了基础。

5.【研究方法与基本原理】

5.1 总体框架:INP-Former架构

INP-Former是一种基于视觉Transformer(ViT)的通用异常检测框架,核心在于从单张测试图像中动态提取内在正常原型(Intrinsic Normal Prototypes, INPs),并通过重建误差识别异常。其架构包含四个关键模块:

1.预训练编码器 (Pre-trained Encoder): 采用 ViT-Base/14 等预训练模型,提取多尺度特征fQ={fQ1,…,fQL}f_Q=\{f_Q^1,\ldots,f_Q^L\}fQ={fQ1,,fQL},其中fQl∈RN×Cf_Q^l\in\mathbb{R}^{N\times C}fQlRN×C,NNN为补丁标记数量,CCC为特征维度。

2.INP 提取器(INP Extractor): 通过跨注意力机制从编码器特征中动态生成MMM个INPs P={p1,…,pM}P=\{p_1,\ldots,p_M\}P={p1,,pM},每个pm∈RCp_m\in\mathbb{R}^CpmRC,代表图像中的正常模式。

**3. 瓶预层(Bottleneck):**融合多尺度特征生成FB=B(fQ)F_B=B(f_Q)FB=B(fQ),用于后续解码。

**4.INP引导解码器(INP-Guided Decoder):**利用 INPs 重建正常区域,输出fD={fD1,…,fDL}f_D=\{f_D^1,\ldots,f_D^L\}fD={fD1,,fDL},异常分
数由fQf_QfQfDf_DfD的重建误差计算。
Overview of our INP-Former framwork for universal anomaly detection

5.2 INP提取器(INP Extractor)

5.2.1 跨注意力机制

通过可学习的查询标记 T={t1,…,tM}T=\{t_1,\ldots,t_M\}T={t1,,tM} 与编码器特征 FQF_QFQ 交互,线性组合生成 INPs:
FQ=∑({fQ1,…,fQL})(多尺度特征求和)F_Q=\sum(\{f_Q^1,\ldots,f_Q^L\}) \quad \text{(多尺度特征求和)}FQ=({fQ1,,fQL})(多尺度特征求和)
Q=TWQ,K=FQWK,V=FQWV(投影为查询、键、值) Q=TW^Q,\quad K=F_QW^K,\quad V=F_QW^V \quad \text{(投影为查询、键、值)}Q=TWQ,K=FQWK,V=FQWV(投影为查询、键、值)
T′=Attention(Q,K,V)+T(注意力更新查询标记)T'=Attention(Q,K,V)+T \quad \text{(注意力更新查询标记)}T=Attention(Q,K,V)+T(注意力更新查询标记)
P=FFN(T′)+T′(前馈网络生成INPs) P=FFN(T')+T' \quad \text{(前馈网络生成INPs)}P=FFN(T)+T(前馈网络生成INPs)
其中,WQ,WK,WVW^Q, W^K, W^VWQ,WK,WV 为可学习参数,FFN 为前馈网络。

5.2.2 INP一致性损失(INP Coherence Loss)

确保 INPs 仅包含正常特征,最小化每个特征与最近 INP 的余弦距离:

(余弦距离)

di=min⁡m∈{1,…,M}S(FQ(i),pm)Lc=1N∑i=1Ndi\begin{aligned}&d_{i}=\min_{m\in\{1,\ldots,M\}}\mathcal{S}\left(F_{Q}(i),p_{m}\right)\\&\mathcal{L}_{c}=\frac{1}{N}\sum_{i=1}^{N}d_{i}\end{aligned}di=m{1,,M}minS(FQ(i),pm)Lc=N1i=1Ndi

其中,S(⋅,⋅)\mathcal{S}(\cdot,\cdot)S(,)为余弦相似度,FQ(i)F_Q(i)FQ(i)为第iii个特征向量。

Comparison of computational cost and memory usage.

5.3 INP引导解码器(INP-Guided Decoder)

5.3.1 跨注意力重建

将 INPs 作为键和值,强制解码器仅使用正常原型组合重建特征,抑制异常区域:
Ql=fDl−1WlQ,Kl=PWlK,Vl=PWlV(投影为查询、键、值)Q_l = f_D^{l-1} W_l^Q, \quad K_l = PW_l^K, \quad V_l = PW_l^V \quad \text{(投影为查询、键、值)}Ql=fDl1WlQ,Kl=PWlK,Vl=PWlV(投影为查询、键、值)
Al=ReLU(Ql(Kl)T)(ReLU激活注意力图,过滤弱相关噪声) A_l = \text{ReLU}\left(Q_l(K_l)^T\right) \quad \text{(ReLU激活注意力图,过滤弱相关噪声)}Al=ReLU(Ql(Kl)T)(ReLU激活注意力图,过滤弱相关噪声)
fDl−1=AlVl(注意力加权值)f_D^{l-1} = A_l V_l \quad \text{(注意力加权值)}fDl1=AlVl(注意力加权值)
fDl=FFN(fDl−1)+fDl−1(残差连接与前馈网络) f_D^l = \text{FFN}(f_D^{l-1}) + f_D^{l-1} \quad \text{(残差连接与前馈网络)}fDl=FFN(fDl1)+fDl1(残差连接与前馈网络)
其中,fDl−1f_D^{l-1}fDl1 为前一层解码特征,Al∈RN×MA_l \in \mathbb{R}^{N \times M}AlRN×M 为注意力图。

5.3.2 计算效率

传统自注意力复杂度为O(N2C)O(N^2C)O(N2C),而 INP引导注意力为O(NMC)O(NMC)O(NMC),因M≪NM\ll NMN (通常M=6M=6M=6),计算量

显著降低。

5.4 软挖掘损失(Soft Mining Loss, ( \mathcal{L}_{sm} ))

动态加权难优化区域,提升重建质量:

wl(h,w)=[Ml(h,w)μ(Ml)]γw^{l}( h, w) = \left [ \frac {M^{l}( h, w) }{\mu ( M^{l}) }\right ] ^{\gamma }wl(h,w)=[μ(Ml)Ml(h,w)]γ (权重计算, 为温度参数)
Lsm=1L∑l=1L(1−vec⁡(fQl)T⋅vec⁡(f^Dl)∥vec⁡(fQl)∥∥vec⁡(f^Dl)∥)\mathcal{L} _{sm}= \frac 1L\sum _{l= 1}^L\left ( 1- \frac {\operatorname { vec} ( f_Q^l) ^T\cdot \operatorname { vec} ( \hat{f} _D^l) }{\| \operatorname { vec} ( f_Q^l) \| \| \operatorname { vec} ( \hat{f} _D^l) \| }\right )Lsm=L1l=1L(1vec(fQl)∥∥vec(f^Dl)vec(fQl)Tvec(f^Dl)) (余弦距离损失)
f^Dl(h,w)=cg(fDl(h,w))wl(h,w)\hat{f} _D^l( h, w) = cg( f_D^l( h, w) ) _{w^l( h, w) }f^Dl(h,w)=cg(fDl(h,w))wl(h,w) (梯度调整)

其中,Ml(h,w)M^l(h,w)Ml(h,w)为像素级余弦距离,μ(Ml)\mu(M^l)μ(Ml)为批次平均距离,vec⁡(⋅)\operatorname{vec}(\cdot)vec()为向量化操作。

5.5 总体损失函数

Ltotal=Lsm+λLcλ 平衡 INP 一致性损失与软挖掘损失,默认取0.2.\mathcal{L}_{\mathrm{total}} = \mathcal{L}_{sm} + \lambda\mathcal{L}_{c\lambda} \mathrm{~平衡~INP~一致性损失与软挖掘损失,默认取0.2.}Ltotal=Lsm+λLcλ 平衡 INP 一致性损失与软挖掘损失,默认取0.2.

5.6 关键创新点

  1. 动态原型提取:无需预存训练集原型,直接从测试图像提取INPs,解决跨样本对齐问题。
  2. 重建引导机制:通过INPs约束解码器仅重建正常区域,异常区域因无法重建产生高误差。
  3. 自适应训练策略:软挖掘损失聚焦难样本,提升模型对复杂正常模式的建模能力。

5.7 数学符号总结

符号含义
fQ,fDf_Q, f_DfQ,fD编码器/解码器特征
PPP内在正常原型(INPs)
TTT可学习查询标记
Lc\mathcal{L}_cLcINP一致性损失
Lsm\mathcal{L}_{sm}Lsm软挖掘损失
MMMINP数量(默认6)
γ,λ\gamma, \lambdaγ,λ超参数(分别为3.0和0.2)

通过上述设计,INP-Former在单类、多类、少样本场景均实现SOTA性能,并具备零样本检测潜力。

6.【实验结果】

6.1 多类异常检测(Multi-Class AD)

INP-Former在MVTec-AD、VisA和Real-IAD三个数据集上均展现出最先进(SOTA)性能:

  • MVTec-AD:图像级指标为99.7/99.9/99.2(AUROC/AP/F1 max),像素级为98.5/71.0/69.7/94.9(AUROC/AP/F1 max/AUPRO),显著优于Dinomaly、MambaAD等方法。
  • VisA:图像级达98.9/99.0/96.6,像素级为98.9/51.2/54.7/94.4,在pcb4、chewinggum等类别中表现突出。
  • Real-IAD:图像级为90.5/88.1/81.5,像素级为99.0/47.5/50.3/95.0,在复杂场景下仍优于现有方法。
    Multi-class anomaly detection performance on different AD datasets. The best in bold, the second-highest is underlined.

6.2 少样本异常检测(Few-Shot AD)

在4-shot设置下:

  • MVTec-AD:图像级97.6/98.6/97.0,像素级97.0/65.9/65.6/92.9,超越WinCLIP、PatchCore等方法。
  • VisA:图像级96.4/96.0/93.0,像素级97.7/49.3/54.3/93.1,优势显著。
  • Real-IAD:图像级76.7/72.3/71.7,像素级97.3/32.2/36.7/89.0,展现鲁棒性。
    Few-shot (4-shot) anomaly detection performance on different AD datasets. The best in bold

6.3 单类异常检测(Single-Class AD)

  • MVTec-AD:I-AUROC达99.7,P-AP为70.2,超越Dinomaly(68.9)和PatchCore(56.1)。
  • Real-IAD:I-AUROC为92.1,P-AP为48.1,均为当前最佳结果。
    Single class anomaly detection performance on different AD datasets. The best in bold, the second-highest is underlined.

6.4 消融实验(Ablation Study)

  1. 模块有效性

    • 仅使用INP模块(INP Extractor + 解码器)时,MVTec-AD图像级提升至99.53/99.80/98.81,像素级提升至98.32/69.82/69.38/94.69。
    • 加入INP一致性损失((L_c))后,性能进一步提升,验证INP纯度的重要性。
    • 软挖掘损失((L_{sm}))聚焦难样本,最终使像素级AP达71.0(MVTec-AD)。
      Overall ablation on MVTec-AD and VisA  datasets. “INP” refers to the use of INP Extractor and INP-Guided Decoder
  2. INP数量影响

    • 当INP数量(M=6)时性能稳定,超过8个时因混入异常信息导致性能下降。
      Influence of the number of INPs

6.5 零样本异常检测(Zero-Shot AD)

  • 未针对零样本训练时,MVTec-AD像素级AUROC达88.0,VisA为88.7,显示模型对未见类别有一定泛化能力。
    Visualizations of INPs. (a) Input anomalous image and ground truth. (b)-(g) Attention maps of six different INPs.

6.6 可视化与局限性

  • INP可视化:INPs可捕捉物体区域、边缘和背景等多语义信息。
    Zero-shot anomaly detection results

7.【论文总结展望】

7.1 研究总结

本研究提出INP-Former,一种基于单张图像内在正常原型(INPs)的通用异常检测框架。核心创新如下:

  1. 动态原型提取:通过INP提取器从测试图像中动态提取INPs,避免传统方法依赖训练集原型导致的跨样本对齐问题。INPs通过跨注意力聚合全局语义信息,更贴合测试图像的正常模式。
  2. 重建引导机制:INP引导解码器利用INPs线性组合重建正常区域,抑制异常区域重建,以重建误差作为异常分数,有效提升检测精度。
  3. 损失函数优化:引入 INP 一致性损失(Lc)(L_c)(Lc)确保 INPs 仅包含正常特征,软挖掘损失(Lsm(L_{sm}(Lsm)聚焦难优化区域,提升模型鲁棒性。

实验表明,INP-Former在MVTec-ADVisAReal-IAD数据集的单类、多类、少样本异常检测任务中均达SOTA性能,且计算复杂度显著低于自注意力机制。例如,在MVTec-AD多类任务中,像素级AP达71.0,超越Dinomaly(69.3)和MambaAD(56.3)。此外,模型展现零样本检测潜力,在未见类别上像素级AUROC达88.0(MVTec-AD)。

7.2 局限性

  1. 逻辑异常检测不足:对与背景高度相似的异常(如Transistor类错位缺陷),INP提取器可能误将异常区域纳入INPs,导致漏检。
  2. 计算资源依赖:尽管INP引导注意力降低复杂度,但ViT-Base模型仍需较高算力,轻量化变体(如INP-Former-S)性能略有下降。

7.3 未来展望

  1. 融合预存原型:结合预存原型的语义丰富性与INPs的对齐优势,提升对逻辑异常的检测能力。
  2. 轻量化设计:探索更小的ViT架构(如ViT-Tiny)或知识蒸馏,降低工业部署成本。
  3. 泛化能力扩展:进一步优化零样本检测流程,结合文本提示或元学习提升对未见类别的适应性。

本研究为通用异常检测提供了“数据自洽”新范式,未来有望在跨域检测、实时工业场景中发挥更大价值。

关注下方《AI前沿速递》🚀🚀🚀
获取更多优质AI前沿内容
码字不易,欢迎大家点赞评论收藏

关于目标检测领域在CVPR 2025的相关论文和技术进展的信息尚未公开,因为CVPR 2025还未举行。不过可以根据近年来的目标检测研究趋势推测可能的方向。 ### 近年来的目标检测技术发展趋势 #### 自监督学习与无监督学习的应用 自监督学习和无监督学习正在成为目标检测的重要方向之一[^2]。通过利用未标注的数据进行预训练,模型能够在大规模数据集上提取更丰富的特征表示。这种方法减少了对大量标注数据的依赖,尤其适用于遥感图像等领域,其中获取高质量标注的成本较高[^3]。 #### 高生成模型的作用 生成对抗网络(GANs)及其变体被广泛应用于合成数据的生成中,特别是在遥感图像目标检测方面。例如,AeroGen是一种布局可控扩散生成模型,它可以生成满足特定布局和对象类别要求的高质量合成图像,从而有效提升检测性能。未来的研究可能会进一步探索如何结合更多的先验知识来优化生成过程。 #### 特征表达能力的增强 为了更好地处理复杂的视觉任务,研究人员不断改进神经网络架构以提高其特征表达能力。一篇来自CVPR 2018的工作探讨了通过学习丰富的特征来进行图像操作检测的技术细节[^1]。虽然这项工作主要关注的是图像篡改问题,但它所提出的特征学习方法同样可以启发其他类型的目标检测应用。 ### 可能的技术突破点 随着计算资源的增长以及新理论的发展,在未来的几年里我们可以期待以下几个方面的进步: - 更高效的轻量化模型设计; - 跨模态融合下的多源信息综合分析; - 基于元学习的小样本快速适应机制。 ```python # 示例代码展示了一个简单的卷积层定义,这是现代深度学习框架构建复杂模型的基础单元。 import torch.nn as nn class ConvLayer(nn.Module): def __init__(self, in_channels, out_channels, kernel_size=3, stride=1, padding=1): super(ConvLayer, self).__init__() self.conv = nn.Conv2d(in_channels, out_channels, kernel_size, stride, padding) def forward(self, x): return self.conv(x) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值