AdaFocusV3:统一时空动态视频识别的新突破
立即解锁
发布时间: 2025-09-16 00:28:10 阅读量: 17 订阅数: 19 AIGC 


计算机视觉前沿进展
# AdaFocusV3:统一时空动态视频识别的新突破
## 1 引言
在当今的视频识别领域,现代深度网络已经在大规模视频识别基准测试中取得了令人瞩目的成绩,甚至超越了人类水平。然而,这些高性能的模型往往伴随着高计算需求,在实际应用中面临着诸多挑战。例如,在YouTube视频推荐、视频监控和基于内容的搜索引擎等现实场景中,部署计算密集型网络会显著增加功耗、系统延迟和碳排放。
为了解决这一问题,近期的许多研究致力于减少视频分析中固有的时间或空间冗余。对于时间冗余,一些算法能够动态识别最具信息量的帧,并将大部分计算资源分配给它们;对于空间冗余,自适应聚焦网络(AdaFocus)则可以动态关注每个视频帧中与任务相关的区域,从而在不牺牲准确性的前提下显著降低计算成本。不过,如何同时建模空间和时间冗余,实现高效的时空动态计算,仍然是一个有待深入探索的领域。
本文提出了AdaFocusV3网络,旨在探索一种统一的方法,同时减少时空冗余,以实现更高效的视频识别。具体来说,该方法首先使用轻量级全局网络快速浏览输入视频,然后基于获得的全局信息学习一个策略网络,用于在由帧高、帧宽和时间构成的三维空间中定位一系列三维立方体。这些较小但信息丰富的视频立方体将由高容量但计算成本更高的局部网络进行处理,从而大大提高计算效率。
此外,AdaFocusV3还具有自适应推理的特性,能够在模型产生足够可靠的预测时动态终止推理过程,避免不必要的计算。实验结果表明,AdaFocusV3在计算效率方面达到了新的先进水平,例如在获得相同准确率的情况下,与最近提出的OCSampler算法相比,其乘法累加运算减少了多达2.6倍。
## 2 相关工作
### 2.1 视频识别
近年来,大规模自动视频识别基准测试的测试准确率有了显著提高,这主要归功于视频表示学习骨干网络的快速发展。大多数工作都专注于建模不同帧之间的时间关系,这是视频理解中的一个关键挑战。常见的方法包括将二维卷积扩展到三维空间以同时利用时空信息,在二维深度网络上设计专门的时间感知架构,以及使用双流网络分别建模短期和长期时间关系。此外,由于使用深度网络处理视频计算量巨大,许多研究开始关注开发高效的视频识别模型。
### 2.2 时间动态网络
利用视频中固有的时间冗余是促进高效视频表示学习的一种直接方法。在视频识别中,已经提出了许多有效的方法,如OCSampler通过强化学习选择与任务相关的帧,VideoIQ根据帧的重要性以不同精度处理帧,FrameExit在处理足够信息的帧后在测试时进行提前终止。然而,AdaFocusV3比这些方法更通用和灵活,因为它同时建模了空间和时间冗余。
### 2.3 空间动态网络
除了时间维度,处理视频帧时还存在大量的空间冗余。许多研究表明,深度网络可以通过关注少数与任务相关的图像区域来有效地提取图像数据的表示。最近,自适应聚焦网络(AdaFocus)在视频识别中验证了这种范式的有效性。然而,现有的工作通常使用独立的算法和网络架构分别建模空间和时间冗余,这种简单的实现方式可能导致次优的结果。本文提出的统一AdaFocusV3框架同时考虑了时空冗余,显著提高了计算效率。
## 3 方法
### 3.1 概述
#### 3.1.1 推理过程
AdaFocusV3的推理过程如下:给定输入视频$V \in R^{H×W×T}$(其中$T$为帧数,$H$和$W$分别为帧高和帧宽,为简化起见省略了RGB通道),首先使用轻量级全局编码器$f_G$对其进行处理,以低成本获取粗略的全局信息。然后,将$f_G$的输出特征输入到策略网络$\pi$中,该网络经过训练,用于捕捉视频$V$中与任务最相关的部分,以提取更精细的表示。具体来说,$\pi$的输出定位一系列大小为$H' × W' × T'$($H' < H$,$W' < W$,$T' < T$)的三维立方体$\{ \tilde{V}_1, \tilde{V}_2, ... \}$,这些立方体将由局部编码器$f_L$进行处理。由于$f_L$是高容量、准确但计算成本较高的网络,仅在选定的信息输入上激活$f_L$可以节省大量的冗余计算。
最后,分类器$f_C$聚合所有先前输入的特征以产生预测。重要的是,$\{ \tilde{V}_1, \tilde{V}_2, ... \}$对识别的贡献在序列中是递减的。每个视频立方体$\tilde{V}_t$经过$f_L$和$f_C$处理后,从$f_C$获取一个softmax预测$p_t$。理想情况下,AdaFocusV3总是首先将计算资源分配给与任务最相关的视频内容。通过采用基于熵的提前终止准则,当$p_t$足够可靠时,推理过程可以终止,从而避免进一步的冗余计算。
#### 3.1.2 训练过程
AdaFocusV3的训练目标是最小化分类器$f_C$所有预测对应的损失之和,即:
\[
\min_{f_G,f_L,f_C,\pi} L = E_{(V,y) \in D_{train}} \left[ \sum_{t} L_{CE}(p_t, y) \right]
\]
其中,$y$是视频$V$的标签,$D_{train}$是训练集,$L_{CE}(·)$表示标准的交叉熵损失函数。直观地说,解决这个问题将学习一个策略网络$\pi$,使模型能够用尽可能少的输入产生正确的预测。
### 3.2 网络架构
- **全局编码器$f_G$**:用于快速浏览视频,为策略网络$\pi$提供全局信息,应采用轻量级架构。
- **局部编码器$f_L$**:负责从选定的重要输入中提取准确和有区分性的表示,允许使用计算密集型和高容量的模型。
- **策略网络$\pi$**:接收$f_G$产生的全局特征图,确定要关注的视频立方体的位置。与AdaFocusV2/V1不同,AdaFoc
0
0
复制全文
相关推荐



