1. 【导读】
标题:Exploring Intrinsic Normal Prototypes within a Single Image for Universal Anomaly Detection
作者:Wei Luo, Yunkang Cao, Haiming Yao, Xiaotian Zhang, Jianan Lou, Yuqi Cheng, Weiming Shen, Wenyong Yu
作者机构: 1. 清华大学精密仪器系 2. 华中科技大学机械科学与工程学院
论文链接:https://arxiv.org/abs/2503.02424v1
项目链接:https://github.com/luow23/INPFormer
更多优质内容需要的同学看文末!
2. 【摘要】
该研究提出了一种名为INP-Former的新型异常检测方法,旨在解决现有方法依赖训练集正常参考导致的对齐难题。研究者观察到,即使在异常图像中也存在有价值的正常信息,且这些信息与异常同属同一图像,可能更易于对齐。基于此,INP-Former直接从测试图像中提取内在正常原型(INPs),而非依赖训练集的外部正常性。
具体而言,该方法通过INP提取器对正常标记进行线性组合以表示INPs,并引入INP一致性损失确保INPs准确表征测试图像的正常性。INP引导解码器在INPs的指导下仅重建正常标记,将重建误差作为异常分数。为优化训练过程,研究者还设计了软挖掘损失,以聚焦难以优化的样本。
实验结果表明,INP-Former在MVTec-AD、VisA和Real-IAD数据集的单类、多类和少样本异常检测任务中均表现出先进性能,且具备一定的零样本检测能力。
3. 【研究背景】
异常检测(AD)在工业检测、医学筛查等领域具有重要应用价值,其核心目标是通过学习正常样本建模“正常性”,进而识别异常模式。现有方法普遍依赖训练数据中的正常参考来评估测试图像的异常程度,但这种模式存在显著局限性:
- 跨样本对齐难题:训练集与测试图像的外观、位置差异可能导致“正常性”建模失准。例如,少样本场景中,类内差异可能使预存原型无法覆盖测试图像的正常变化(如不同外观和位置的榛子);多类场景中,某类的正常原型可能与另一类的异常特征相似(如榛子的正常背景与电缆的异常区域),导致误检。
- 现有改进的局限性:尽管部分研究尝试通过空间对齐、特征分块等方式优化训练集原型与测试图像的匹配,但类内差异仍可能导致对齐不充分,且这些方法仍依赖训练数据,无法根本解决跨样本差异问题。
在此背景下,研究者提出:若直接从测试图像本身提取正常原型(即“内在正常原型”,INPs),可利用异常图像中保留的正常区域信息,避免训练集与测试图像的跨样本差异,从而更精准地对齐异常区域与正常原型。这一思路为解决异常检测中的对齐难题提供了全新视角。
4.【主要贡献】
论文的主要贡献如下:
-
提出内在正常原型(INPs)概念
研究者发现单张图像中存在可用于异常检测的内在正常原型(INPs),即异常图像中的正常区域可作为紧凑且对齐的正常性表示,缓解了传统方法依赖训练集原型导致的跨样本对齐问题。 -
设计INP-Former框架
- INP提取器:通过可学习的跨注意力机制,从测试图像中动态提取INPs,利用全局语义信息聚合正常特征,避免了手工设计特征的局限性。
- INP引导解码器:将INPs融入重建框架,通过组合离散INPs准确重建正常区域,并抑制异常区域的重建,以重建误差作为异常分数,提升检测精度。
-
创新损失函数
- INP一致性损失(INP Coherence Loss):确保提取的INPs仅表征正常特征,避免包含异常区域,增强正常性表示的纯度。
- 软挖掘损失(Soft Mining Loss):动态调整训练样本权重,聚焦难优化的正常区域,提升重建质量和检测性能。
-
通用异常检测性能突破
- 多场景有效性:在MVTec-AD、VisA、Real-IAD数据集的单类、多类、少样本异常检测任务中均达到 state-of-the-art(SOTA)性能,且计算复杂度显著低于自注意力机制。
- 零样本检测能力:模型可从 unseen 类别图像中提取INPs,展现出一定的零样本异常检测潜力。
-
方法论启示
首次验证了单张图像内正常原型的普适性,为通用异常检测提供了“数据自洽”的新范式,无需依赖外部训练数据的先验知识,为后续研究奠定了基础。
5.【研究方法与基本原理】
5.1 总体框架:INP-Former架构
INP-Former是一种基于视觉Transformer(ViT)的通用异常检测框架,核心在于从单张测试图像中动态提取内在正常原型(Intrinsic Normal Prototypes, INPs),并通过重建误差识别异常。其架构包含四个关键模块:
1.预训练编码器 (Pre-trained Encoder): 采用 ViT-Base/14 等预训练模型,提取多尺度特征fQ={fQ1,…,fQL}f_Q=\{f_Q^1,\ldots,f_Q^L\}fQ={fQ1,…,fQL},其中fQl∈RN×Cf_Q^l\in\mathbb{R}^{N\times C}fQl∈RN×C,NNN为补丁标记数量,CCC为特征维度。
2.INP 提取器(INP Extractor): 通过跨注意力机制从编码器特征中动态生成MMM个INPs P={p1,…,pM}P=\{p_1,\ldots,p_M\}P={p1,…,pM},每个pm∈RCp_m\in\mathbb{R}^Cpm∈RC,代表图像中的正常模式。
**3. 瓶预层(Bottleneck):**融合多尺度特征生成FB=B(fQ)F_B=B(f_Q)FB=B(fQ),用于后续解码。
**4.INP引导解码器(INP-Guided Decoder):**利用 INPs 重建正常区域,输出fD={fD1,…,fDL}f_D=\{f_D^1,\ldots,f_D^L\}fD={fD1,…,fDL},异常分
数由fQf_QfQ与fDf_DfD的重建误差计算。
5.2 INP提取器(INP Extractor)
5.2.1 跨注意力机制
通过可学习的查询标记 T={t1,…,tM}T=\{t_1,\ldots,t_M\}T={t1,…,tM} 与编码器特征 FQF_QFQ 交互,线性组合生成 INPs:
FQ=∑({fQ1,…,fQL})(多尺度特征求和)F_Q=\sum(\{f_Q^1,\ldots,f_Q^L\}) \quad \text{(多尺度特征求和)}FQ=∑({fQ1,…,fQL})(多尺度特征求和)
Q=TWQ,K=FQWK,V=FQWV(投影为查询、键、值)
Q=TW^Q,\quad K=F_QW^K,\quad V=F_QW^V \quad \text{(投影为查询、键、值)}Q=TWQ,K=FQWK,V=FQWV(投影为查询、键、值)
T′=Attention(Q,K,V)+T(注意力更新查询标记)T'=Attention(Q,K,V)+T \quad \text{(注意力更新查询标记)}T′=Attention(Q,K,V)+T(注意力更新查询标记)
P=FFN(T′)+T′(前馈网络生成INPs)
P=FFN(T')+T' \quad \text{(前馈网络生成INPs)}P=FFN(T′)+T′(前馈网络生成INPs)
其中,WQ,WK,WVW^Q, W^K, W^VWQ,WK,WV 为可学习参数,FFN 为前馈网络。
5.2.2 INP一致性损失(INP Coherence Loss)
确保 INPs 仅包含正常特征,最小化每个特征与最近 INP 的余弦距离:
(余弦距离)
di=minm∈{1,…,M}S(FQ(i),pm)Lc=1N∑i=1Ndi\begin{aligned}&d_{i}=\min_{m\in\{1,\ldots,M\}}\mathcal{S}\left(F_{Q}(i),p_{m}\right)\\&\mathcal{L}_{c}=\frac{1}{N}\sum_{i=1}^{N}d_{i}\end{aligned}di=m∈{1,…,M}minS(FQ(i),pm)Lc=N1i=1∑Ndi
其中,S(⋅,⋅)\mathcal{S}(\cdot,\cdot)S(⋅,⋅)为余弦相似度,FQ(i)F_Q(i)FQ(i)为第iii个特征向量。
5.3 INP引导解码器(INP-Guided Decoder)
5.3.1 跨注意力重建
将 INPs 作为键和值,强制解码器仅使用正常原型组合重建特征,抑制异常区域:
Ql=fDl−1WlQ,Kl=PWlK,Vl=PWlV(投影为查询、键、值)Q_l = f_D^{l-1} W_l^Q, \quad K_l = PW_l^K, \quad V_l = PW_l^V \quad \text{(投影为查询、键、值)}Ql=fDl−1WlQ,Kl=PWlK,Vl=PWlV(投影为查询、键、值)
Al=ReLU(Ql(Kl)T)(ReLU激活注意力图,过滤弱相关噪声)
A_l = \text{ReLU}\left(Q_l(K_l)^T\right) \quad \text{(ReLU激活注意力图,过滤弱相关噪声)}Al=ReLU(Ql(Kl)T)(ReLU激活注意力图,过滤弱相关噪声)
fDl−1=AlVl(注意力加权值)f_D^{l-1} = A_l V_l \quad \text{(注意力加权值)}fDl−1=AlVl(注意力加权值)
fDl=FFN(fDl−1)+fDl−1(残差连接与前馈网络)
f_D^l = \text{FFN}(f_D^{l-1}) + f_D^{l-1} \quad \text{(残差连接与前馈网络)}fDl=FFN(fDl−1)+fDl−1(残差连接与前馈网络)
其中,fDl−1f_D^{l-1}fDl−1 为前一层解码特征,Al∈RN×MA_l \in \mathbb{R}^{N \times M}Al∈RN×M 为注意力图。
5.3.2 计算效率
传统自注意力复杂度为O(N2C)O(N^2C)O(N2C),而 INP引导注意力为O(NMC)O(NMC)O(NMC),因M≪NM\ll NM≪N (通常M=6M=6M=6),计算量
显著降低。
5.4 软挖掘损失(Soft Mining Loss, ( \mathcal{L}_{sm} ))
动态加权难优化区域,提升重建质量:
wl(h,w)=[Ml(h,w)μ(Ml)]γw^{l}( h, w) = \left [ \frac {M^{l}( h, w) }{\mu ( M^{l}) }\right ] ^{\gamma }wl(h,w)=[μ(Ml)Ml(h,w)]γ (权重计算, 为温度参数)
Lsm=1L∑l=1L(1−vec(fQl)T⋅vec(f^Dl)∥vec(fQl)∥∥vec(f^Dl)∥)\mathcal{L} _{sm}= \frac 1L\sum _{l= 1}^L\left ( 1- \frac {\operatorname { vec} ( f_Q^l) ^T\cdot \operatorname { vec} ( \hat{f} _D^l) }{\| \operatorname { vec} ( f_Q^l) \| \| \operatorname { vec} ( \hat{f} _D^l) \| }\right )Lsm=L1∑l=1L(1−∥vec(fQl)∥∥vec(f^Dl)∥vec(fQl)T⋅vec(f^Dl)) (余弦距离损失)
f^Dl(h,w)=cg(fDl(h,w))wl(h,w)\hat{f} _D^l( h, w) = cg( f_D^l( h, w) ) _{w^l( h, w) }f^Dl(h,w)=cg(fDl(h,w))wl(h,w) (梯度调整)
其中,Ml(h,w)M^l(h,w)Ml(h,w)为像素级余弦距离,μ(Ml)\mu(M^l)μ(Ml)为批次平均距离,vec(⋅)\operatorname{vec}(\cdot)vec(⋅)为向量化操作。
5.5 总体损失函数
Ltotal=Lsm+λLcλ 平衡 INP 一致性损失与软挖掘损失,默认取0.2.\mathcal{L}_{\mathrm{total}} = \mathcal{L}_{sm} + \lambda\mathcal{L}_{c\lambda} \mathrm{~平衡~INP~一致性损失与软挖掘损失,默认取0.2.}Ltotal=Lsm+λLcλ 平衡 INP 一致性损失与软挖掘损失,默认取0.2.
5.6 关键创新点
- 动态原型提取:无需预存训练集原型,直接从测试图像提取INPs,解决跨样本对齐问题。
- 重建引导机制:通过INPs约束解码器仅重建正常区域,异常区域因无法重建产生高误差。
- 自适应训练策略:软挖掘损失聚焦难样本,提升模型对复杂正常模式的建模能力。
5.7 数学符号总结
符号 | 含义 |
---|---|
fQ,fDf_Q, f_DfQ,fD | 编码器/解码器特征 |
PPP | 内在正常原型(INPs) |
TTT | 可学习查询标记 |
Lc\mathcal{L}_cLc | INP一致性损失 |
Lsm\mathcal{L}_{sm}Lsm | 软挖掘损失 |
MMM | INP数量(默认6) |
γ,λ\gamma, \lambdaγ,λ | 超参数(分别为3.0和0.2) |
通过上述设计,INP-Former在单类、多类、少样本场景均实现SOTA性能,并具备零样本检测潜力。
6.【实验结果】
6.1 多类异常检测(Multi-Class AD)
INP-Former在MVTec-AD、VisA和Real-IAD三个数据集上均展现出最先进(SOTA)性能:
- MVTec-AD:图像级指标为99.7/99.9/99.2(AUROC/AP/F1 max),像素级为98.5/71.0/69.7/94.9(AUROC/AP/F1 max/AUPRO),显著优于Dinomaly、MambaAD等方法。
- VisA:图像级达98.9/99.0/96.6,像素级为98.9/51.2/54.7/94.4,在pcb4、chewinggum等类别中表现突出。
- Real-IAD:图像级为90.5/88.1/81.5,像素级为99.0/47.5/50.3/95.0,在复杂场景下仍优于现有方法。
6.2 少样本异常检测(Few-Shot AD)
在4-shot设置下:
- MVTec-AD:图像级97.6/98.6/97.0,像素级97.0/65.9/65.6/92.9,超越WinCLIP、PatchCore等方法。
- VisA:图像级96.4/96.0/93.0,像素级97.7/49.3/54.3/93.1,优势显著。
- Real-IAD:图像级76.7/72.3/71.7,像素级97.3/32.2/36.7/89.0,展现鲁棒性。
6.3 单类异常检测(Single-Class AD)
- MVTec-AD:I-AUROC达99.7,P-AP为70.2,超越Dinomaly(68.9)和PatchCore(56.1)。
- Real-IAD:I-AUROC为92.1,P-AP为48.1,均为当前最佳结果。
6.4 消融实验(Ablation Study)
-
模块有效性:
- 仅使用INP模块(INP Extractor + 解码器)时,MVTec-AD图像级提升至99.53/99.80/98.81,像素级提升至98.32/69.82/69.38/94.69。
- 加入INP一致性损失((L_c))后,性能进一步提升,验证INP纯度的重要性。
- 软挖掘损失((L_{sm}))聚焦难样本,最终使像素级AP达71.0(MVTec-AD)。
-
INP数量影响:
- 当INP数量(M=6)时性能稳定,超过8个时因混入异常信息导致性能下降。
- 当INP数量(M=6)时性能稳定,超过8个时因混入异常信息导致性能下降。
6.5 零样本异常检测(Zero-Shot AD)
- 未针对零样本训练时,MVTec-AD像素级AUROC达88.0,VisA为88.7,显示模型对未见类别有一定泛化能力。
6.6 可视化与局限性
- INP可视化:INPs可捕捉物体区域、边缘和背景等多语义信息。
7.【论文总结展望】
7.1 研究总结
本研究提出INP-Former,一种基于单张图像内在正常原型(INPs)的通用异常检测框架。核心创新如下:
- 动态原型提取:通过INP提取器从测试图像中动态提取INPs,避免传统方法依赖训练集原型导致的跨样本对齐问题。INPs通过跨注意力聚合全局语义信息,更贴合测试图像的正常模式。
- 重建引导机制:INP引导解码器利用INPs线性组合重建正常区域,抑制异常区域重建,以重建误差作为异常分数,有效提升检测精度。
- 损失函数优化:引入 INP 一致性损失(Lc)(L_c)(Lc)确保 INPs 仅包含正常特征,软挖掘损失(Lsm(L_{sm}(Lsm)聚焦难优化区域,提升模型鲁棒性。
实验表明,INP-Former在MVTec-AD、VisA、Real-IAD数据集的单类、多类、少样本异常检测任务中均达SOTA性能,且计算复杂度显著低于自注意力机制。例如,在MVTec-AD多类任务中,像素级AP达71.0,超越Dinomaly(69.3)和MambaAD(56.3)。此外,模型展现零样本检测潜力,在未见类别上像素级AUROC达88.0(MVTec-AD)。
7.2 局限性
- 逻辑异常检测不足:对与背景高度相似的异常(如Transistor类错位缺陷),INP提取器可能误将异常区域纳入INPs,导致漏检。
- 计算资源依赖:尽管INP引导注意力降低复杂度,但ViT-Base模型仍需较高算力,轻量化变体(如INP-Former-S)性能略有下降。
7.3 未来展望
- 融合预存原型:结合预存原型的语义丰富性与INPs的对齐优势,提升对逻辑异常的检测能力。
- 轻量化设计:探索更小的ViT架构(如ViT-Tiny)或知识蒸馏,降低工业部署成本。
- 泛化能力扩展:进一步优化零样本检测流程,结合文本提示或元学习提升对未见类别的适应性。
本研究为通用异常检测提供了“数据自洽”新范式,未来有望在跨域检测、实时工业场景中发挥更大价值。
关注下方《AI前沿速递》🚀🚀🚀
获取更多优质AI前沿内容
码字不易,欢迎大家点赞评论收藏