基于尺度感知的时空关系学习的视频异常检测方法

立即解锁
发布时间: 2025-09-16 00:28:12 阅读量: 4 订阅数: 21 AIGC
PDF

计算机视觉前沿进展

### 基于尺度感知的时空关系学习的视频异常检测方法 在视频异常检测领域,为了更有效地识别视频中的异常事件,提出了一种基于尺度感知的时空关系学习(SSRL)方法。该方法通过多个关键模块和精心设计的损失函数,在多个数据集上取得了优异的性能。 #### 1. 核心模块介绍 - **Patch Spatial Relation Module(PSR)** - 灵感来源于结合膨胀卷积金字塔和时间自注意力模块的网络,用于捕获视频片段之间的长短期时间依赖关系。不同的是,不仅捕获时间依赖,还学习补丁立方体之间的空间关系。 - 详细架构: - 右子网络是一个非局部网络,通过自注意力机制建模补丁立方体之间的全局空间关系。 - 左子网络包含膨胀卷积金字塔,学习相邻补丁立方体的局部空间依赖关系,具有多尺度感受野。 - 具体操作步骤: 1. 将预提取的初始补丁特征 $\chi_r^t \in R^{N_r \times D}$ 输入到 PSR 模块。 2. 非局部网络使用 1×1 卷积将通道维度从 $\chi_r^t \in R^{N_r \times D}$ 减少到 $\bar{\chi}_r^t \in R^{N_r \times D/4}$。 3. 执行非局部操作: - $\tilde{\chi}_r^t = softmax(W_{\theta} \bar{\chi}_r^t \bar{\chi}_r^t^{\top} W_{\phi}^{\top}) W_g \bar{\chi}_r^t$ - $\hat{\chi}_r^t = W_z \tilde{\chi}_r^t + \bar{\chi}_r^t$ 4. 左子网络使用三个不同膨胀因子($d \in \{1, 2, 4\}$)的 1 - D 膨胀卷积,将输入特征 $\chi_r^t$ 同时输入,产生多尺度膨胀嵌入表示 $\chi_{r,*,t} \in R^{N \times D/4}$。 5. 对两个子网络的输出进行拼接和残差连接,得到空间增强的补丁表示: - $\phi_r^t = [\hat{\chi}_r^t, \chi_{r,*,t}] + \chi_r^t$ - **Multi - scale Patch Aggregation(MPA)** - 由于视频中不同异常对象的空间尺度差异很大,直接将输入视频片段分割成单一固定空间大小的补丁立方体可能导致大异常对象无法完全分割到单个补丁,小异常对象只占据补丁区域的一小部分。因此提出 MPA 方法解决尺寸不匹配问题。 - 具体操作步骤: 1. 使用不同大小的滑动窗口将输入视频片段分割成几组不重叠的补丁立方体,以覆盖不同大小的异常对象。 2. 将这些补丁立方体组并行通过 I3D 特征提取器和 PSR 模块,得到空间增强的补丁表示 $\{\phi_r^t\}_{r = 1}^R$。 3. 将每个输入补丁表示 $\phi_r^t$ 根据补丁立方体的初始空间位置重构为 3 - D 特征向量 $\dot{\phi}_r^t \in R^{\lfloor H/h_r \rfloor \times \lfloor W/w_r \rfloor \times D}$。 4. 通过后续的卷积和全连接层将 3 - D 特征向量转换为 1 - D 特征向量 $\ddot{\phi}_r^t \in R^D$。 5. 通过元素级加法操作将多尺度融合的补丁特征 $\{\ddot{\phi}_r^t\}_{r = 1}^R$ 聚合在一起,得到聚合的片段特征 $\phi_t' = \sum_{r = 1}^R \ddot{\phi}_r^t$。 - **Video Temporal Relation Module(VTR)** - 在异常视频中,异常视频片段的运动模式很可能不遵循其他正常视频片段的模式。VTR 模块通过在时间维度上应用关系网络来学习视频片段的时间上下文。 - 具体公式: - $\tilde{\phi}_A = softmax(W_{\theta} \bar{\phi}_A \bar{\phi}_A^{\top} W_{\phi}^{\top}) W_g \bar{\phi}_A$ - $\hat{\phi}_A = W_z \tilde{\phi}_A + \bar{\phi}_A$ - $\phi_{ST} = [\hat{\phi}_A, \phi_{*,A}] + \phi_A$ #### 2. 损失函数 - **特征幅度基于的 MIL 排序损失** - 选择多实例学习(MIL)方法进行弱监督学习,并借鉴特征幅度学习方法,通过选择特征幅度最大的前 k 个片段而不是异常分数最高的片段来监督 MIL 模型,实现异常和正常视频的更好分离。 - 具体公式: - 平均特征幅度:$g(\phi_{ST}) = \max_{\Omega_k(\phi_{ST}) \subseteq \{\phi_t''\}_{t = 1}^T} \frac{1}{k} \sum_{\phi_t'' \in \Omega_k(\phi_{ST})} \|\phi_t''\|_2$ - 特征幅度基于的 MIL 排序损失:$L_{FM} = \max(0, \epsilon - g(\phi_{ST}^+) + g(\phi_{ST}^-))$ - **交叉熵损失** - 将选择的特征幅度最大的前 k 个片段输入到片段分类器,生成相应的片段异常分数 $\{s_j\}_{j = 1}^k$,并应用基于交叉熵的损失函数训练片段分类器。 - 具体公式:$L_{CE} = \sum_{s \in \{s_j\}_{j = 1}^k} -(y \log(s) + (1 - y) \log(1 - s))$ - **总损失函数** - 增加稀疏性和时间平滑性约束,总损失函数定义为: - $L = L_{CE} + \lambda_{fm} L_{FM} + \lam
corwn 最低0.47元/天 解锁专栏
买1年送3月
继续阅读 点击查看下一篇
profit 400次 会员资源下载次数
profit 300万+ 优质博客文章
profit 1000万+ 优质下载资源
profit 1000万+ 优质文库回答
复制全文

相关推荐

张_伟_杰

人工智能专家
人工智能和大数据领域有超过10年的工作经验,拥有深厚的技术功底,曾先后就职于多家知名科技公司。职业生涯中,曾担任人工智能工程师和数据科学家,负责开发和优化各种人工智能和大数据应用。在人工智能算法和技术,包括机器学习、深度学习、自然语言处理等领域有一定的研究
最低0.47元/天 解锁专栏
买1年送3月
百万级 高质量VIP文章无限畅学
千万级 优质资源任意下载
千万级 优质文库回答免费看
立即解锁

专栏目录

最新推荐

精益制造与分布式制造:新兴制造模式解析

### 精益制造与分布式制造:新兴制造模式解析 #### 1. 精益制造面临的挑战 精益制造旨在通过消除生产过程中的浪费和低效率来实现持续改进,但在实施过程中面临诸多挑战: - **早期评估困难**:只有少数公司能够在早期评估精益制造的影响,以确定其可行性和盈利能力。 - **缺乏员工咨询**:如果管理层在未与员工协商的情况下决定实施精益制造,可能会导致实施效果不佳。 - **缺乏标准流程**:目前缺乏标准的精益制造实施流程或框架,超过50%的实施努力以失败告终。 - **其他挑战**: - **缺乏承诺**:组织对精益制造的认知消极,高级和中层管理人员缺乏承诺,对精益制造概念理解不

嵌入式软件安全、定时与未来展望

# 嵌入式软件安全、定时与未来展望 ## 1. 安全标准与定时考量 在众多领域,如航空航天、医疗、铁路、汽车等,都有各自与嵌入式系统软件开发相关的安全标准。以下是部分重要安全标准的示例: | 标准 | 安全完整性等级(低 - 高) | 描述 | | --- | --- | --- | | IEC 61508 | SIL1 - SIL4 | 电气/电子组件的通用安全标准 | | IEC 61508 Edition 2 | SIL1 - SIL4 | IEC 61508 的后续版本 | | ISO 26262* | ASIL A - ASIL D | 汽车软件的安全标准 | | IEC 6206

开源医疗设备:教学设计、标准与法规的有效工具

### 开源医疗设备:教学设计、标准与法规的有效工具 #### 1. 引言 医疗设备的设计需要多学科方法。在这一过程中,机械、电子和信息技术等科学技术知识,需与生物学、解剖学和病理生理学等能力相结合,以满足患者和医疗服务提供者的临床需求。医疗设备项目通常涉及专业团队,成员包括生物医学工程师、医生、管理和商业专家等。因此,团队合作态度和沟通技巧与解决问题的能力同样重要。 在这样的背景下,基于协作项目/问题的教学学习方法被认为是将技术能力与横向技能发展相衔接的有效策略,对生物医学工程(BME)专业学生的教育可能具有重要价值。项目式学习(PBL)方法有多种形式,广泛应用于不同学科的研究生和本科生

操作系统任务调度器的实现与优化

### 操作系统任务调度器的实现与优化 在操作系统的设计中,任务调度器是核心组件之一,它负责合理分配CPU时间,确保多个任务能够高效、有序地运行。下面将详细介绍不同类型的任务调度器实现及其特点。 #### 1. 简单调度器与并发问题 最初实现的小操作系统能让内核按顺序调度两个任务。任务ID为0的任务在每次循环开始时恢复执行,但在这个简单示例中,内核任务只是循环调用调度函数,立即恢复ID为1的任务。不过,这种设计存在问题,系统的响应性完全依赖于任务的实现,因为每个任务都可能无限占用CPU,阻止其他任务运行,这种协作模型仅适用于特定场景,可能影响系统的响应性和公平性。 此外,该实现未考虑`j

基于ESP32的设备控制技术解析

# 基于ESP32的设备控制技术解析 ## 1. App Sliders应用 在设备控制领域,MIT App Inventor的滑块组件发挥着重要作用。其滑块位置可映射到一系列数值,用于控制设备,如直流电机的速度、事件的时间间隔或扬声器的音量。 ### 1.1 滑块映射原理 以控制直流电机速度为例,若将滑块范围定义为0 - 100,可将其映射到0 - 255的8位PWM(脉冲宽度调制)值,以此生成具有相应占空比的方波,进而控制直流电机的速度。 ### 1.2 不同类型滑块 - **圆形滑块**:具有独特的视觉外观,在某些应用场景中比水平滑块更合适。相关应用包括特定的布局和应用块设置。

中世纪伦理学中的他人相遇:托马斯·阿奎那的案例

# 中世纪伦理学中的他人相遇:托马斯·阿奎那的案例 ## 1 引言 中世纪伦理学采用个人主义的方法,假定存在一个自主的道德主体,其具备实践理性,能够独立于神的启示来识别善恶。中世纪思想家强调道德主体的理性和意志自主性,即没有人能够代替“我”做决定和行动。在中世纪的行动理论中,意向性、个人责任和可归责性等概念凸显出来,与之相关的还有意志自由和良知。 实践理性不仅包括对普遍道德原则的认识,还包括在特定情况下正确应用这些原则的能力。道德行为是实践理性在具体情境中做出的特定判断的结果。这就是实践科学与理论科学的区别:实践科学的对象是偶然的(如偶然的行为),而理论科学的对象是必然的。由于关注特定和偶

Vitter算法节点合并策略详解:3种场景下的编码速度加速关键技术

![Vitter算法](https://irendering.net/wp-content/uploads/2024/02/optimize-render-settings-for-octane-with-irender-11.jpg) # 摘要 本文系统研究Vitter算法中动态编码机制与节点合并策略的协同优化问题,重点分析自适应Huffman编码的动态频率更新、最优子结构特性及等权节点管理机制,构建基于信息熵增益的节点合并数学模型。针对不同数据分布场景,设计融合频率阈值与结构紧凑性的合并触发逻辑,提出块链表维护与指针修复关键技术,并在高频重复、多符号交替及突发数据流场景下实现编码加速

VCE与VCEDMA文件差异分析(深度技术对比):揭开考试模拟器数据存储的秘密机制

# 摘要 本文系统研究了VCE与VCEDMA文件的技术背景、结构特性及其在考试模拟器中的应用场景。通过对VCE文件的组成架构、元数据布局、加密机制及运行时行为进行深度解析,揭示了其题库组织与状态管理的实现逻辑,并结合手动解析实践展示了数据提取方法。进一步地,本文深入探讨了VCEDMA文件的底层机制,包括动态内存映射、分块存储、写时复制与脏页追踪等核心技术,阐明了其相较传统VCE的架构优势。通过实测对比两类文件在存储效率、访问性能、安全性与兼容性方面的表现,本文提供了全面的性能评估。最后,展望了考试模拟器数据存储机制向高安全性、高效率与跨平台兼容性发展的未来趋势。 # 关键字 VCE文

数字图像处理中的相机设置与图像采集

# 数字图像处理中的相机设置与图像采集 ## 1. OV7670相机模块介绍 ### 1.1 引脚说明 | 引脚 | 描述 | | --- | --- | | SIOC | 串行接口时钟 | | SIOD | 串行接口数据输入输出 | | VSYNC | 垂直同步输出 | | HREF | 水平参考 | | PCLK | 像素时钟输出 | | D0 - D7 | 数字数据输出 | | PWDN | 电源关闭输入 | | XCLK | 系统时钟输入 | | RESET | 复位输入 | | 3V3 | 电源供应 | | GND | 接地 | VSYNC 表示正在传输一帧图像,HREF 表示正