基于尺度感知的时空关系学习的视频异常检测方法
立即解锁
发布时间: 2025-09-16 00:28:12 阅读量: 4 订阅数: 21 AIGC 


计算机视觉前沿进展
### 基于尺度感知的时空关系学习的视频异常检测方法
在视频异常检测领域,为了更有效地识别视频中的异常事件,提出了一种基于尺度感知的时空关系学习(SSRL)方法。该方法通过多个关键模块和精心设计的损失函数,在多个数据集上取得了优异的性能。
#### 1. 核心模块介绍
- **Patch Spatial Relation Module(PSR)**
- 灵感来源于结合膨胀卷积金字塔和时间自注意力模块的网络,用于捕获视频片段之间的长短期时间依赖关系。不同的是,不仅捕获时间依赖,还学习补丁立方体之间的空间关系。
- 详细架构:
- 右子网络是一个非局部网络,通过自注意力机制建模补丁立方体之间的全局空间关系。
- 左子网络包含膨胀卷积金字塔,学习相邻补丁立方体的局部空间依赖关系,具有多尺度感受野。
- 具体操作步骤:
1. 将预提取的初始补丁特征 $\chi_r^t \in R^{N_r \times D}$ 输入到 PSR 模块。
2. 非局部网络使用 1×1 卷积将通道维度从 $\chi_r^t \in R^{N_r \times D}$ 减少到 $\bar{\chi}_r^t \in R^{N_r \times D/4}$。
3. 执行非局部操作:
- $\tilde{\chi}_r^t = softmax(W_{\theta} \bar{\chi}_r^t \bar{\chi}_r^t^{\top} W_{\phi}^{\top}) W_g \bar{\chi}_r^t$
- $\hat{\chi}_r^t = W_z \tilde{\chi}_r^t + \bar{\chi}_r^t$
4. 左子网络使用三个不同膨胀因子($d \in \{1, 2, 4\}$)的 1 - D 膨胀卷积,将输入特征 $\chi_r^t$ 同时输入,产生多尺度膨胀嵌入表示 $\chi_{r,*,t} \in R^{N \times D/4}$。
5. 对两个子网络的输出进行拼接和残差连接,得到空间增强的补丁表示:
- $\phi_r^t = [\hat{\chi}_r^t, \chi_{r,*,t}] + \chi_r^t$
- **Multi - scale Patch Aggregation(MPA)**
- 由于视频中不同异常对象的空间尺度差异很大,直接将输入视频片段分割成单一固定空间大小的补丁立方体可能导致大异常对象无法完全分割到单个补丁,小异常对象只占据补丁区域的一小部分。因此提出 MPA 方法解决尺寸不匹配问题。
- 具体操作步骤:
1. 使用不同大小的滑动窗口将输入视频片段分割成几组不重叠的补丁立方体,以覆盖不同大小的异常对象。
2. 将这些补丁立方体组并行通过 I3D 特征提取器和 PSR 模块,得到空间增强的补丁表示 $\{\phi_r^t\}_{r = 1}^R$。
3. 将每个输入补丁表示 $\phi_r^t$ 根据补丁立方体的初始空间位置重构为 3 - D 特征向量 $\dot{\phi}_r^t \in R^{\lfloor H/h_r \rfloor \times \lfloor W/w_r \rfloor \times D}$。
4. 通过后续的卷积和全连接层将 3 - D 特征向量转换为 1 - D 特征向量 $\ddot{\phi}_r^t \in R^D$。
5. 通过元素级加法操作将多尺度融合的补丁特征 $\{\ddot{\phi}_r^t\}_{r = 1}^R$ 聚合在一起,得到聚合的片段特征 $\phi_t' = \sum_{r = 1}^R \ddot{\phi}_r^t$。
- **Video Temporal Relation Module(VTR)**
- 在异常视频中,异常视频片段的运动模式很可能不遵循其他正常视频片段的模式。VTR 模块通过在时间维度上应用关系网络来学习视频片段的时间上下文。
- 具体公式:
- $\tilde{\phi}_A = softmax(W_{\theta} \bar{\phi}_A \bar{\phi}_A^{\top} W_{\phi}^{\top}) W_g \bar{\phi}_A$
- $\hat{\phi}_A = W_z \tilde{\phi}_A + \bar{\phi}_A$
- $\phi_{ST} = [\hat{\phi}_A, \phi_{*,A}] + \phi_A$
#### 2. 损失函数
- **特征幅度基于的 MIL 排序损失**
- 选择多实例学习(MIL)方法进行弱监督学习,并借鉴特征幅度学习方法,通过选择特征幅度最大的前 k 个片段而不是异常分数最高的片段来监督 MIL 模型,实现异常和正常视频的更好分离。
- 具体公式:
- 平均特征幅度:$g(\phi_{ST}) = \max_{\Omega_k(\phi_{ST}) \subseteq \{\phi_t''\}_{t = 1}^T} \frac{1}{k} \sum_{\phi_t'' \in \Omega_k(\phi_{ST})} \|\phi_t''\|_2$
- 特征幅度基于的 MIL 排序损失:$L_{FM} = \max(0, \epsilon - g(\phi_{ST}^+) + g(\phi_{ST}^-))$
- **交叉熵损失**
- 将选择的特征幅度最大的前 k 个片段输入到片段分类器,生成相应的片段异常分数 $\{s_j\}_{j = 1}^k$,并应用基于交叉熵的损失函数训练片段分类器。
- 具体公式:$L_{CE} = \sum_{s \in \{s_j\}_{j = 1}^k} -(y \log(s) + (1 - y) \log(1 - s))$
- **总损失函数**
- 增加稀疏性和时间平滑性约束,总损失函数定义为:
- $L = L_{CE} + \lambda_{fm} L_{FM} + \lam
0
0
复制全文
相关推荐










