2022-CVPR-Exploring Denoised Cross-Video Contrast for Weakly-Supervised Temporal Action Localization
探索用于弱监督时间动作定位的去噪跨视频对比度
摘要
弱监督时间动作定位旨在仅使用视频级标签来定位未修剪视频中的动作。大多数现有方法通过 “分类定位” 管道解决这个问题,该管道基于片段分类序列来定位动作区域。不幸的是,由于视频级标签的稀疏性,片段分类很容易出错。受最近在无监督对比表示学习方面取得成功的启发,我们提出了一种新颖的去噪跨视频对比算法
,旨在增强视频片段的特征辨别能力,以便在弱监督环境下进行准确的时间动作定位。这是通过三个关键设计实现的:1)一个有效的伪标签去噪模块,以减轻由噪声对比特征引起的副作用,2)一个有效的区域级特征对比策略,带有区域级内存库以捕获整个数据集的 “全局” 对比,以及 3)多样化的对比学习策略,以实现动作背景分离以及类内紧凑性和类间可分离性。在 THUMOS14 和 ActivityNet v1.3 上进行的大量实验证明了我们方法的卓越性能。
1. 引言
作为一项基本但具有挑战性的计算机视觉任务,时间动作定位旨在定位未修剪视频中规定动作类别的出现。由于其在监控 [49]、视频摘要 [32]、高亮检测 [55] 等方面的广泛应用,受到了广泛的研究关注。许多现有方法 [4、7、28、43、56、66、68] 基于完全监督的训练,这在很大程度上依赖于密集注释的帧标签,这些标签通常是费力且耗时的。另一方面,用户更容易提供描述场景上下文和内容的视频级标签。这自然会产生弱监督时间动作定位或 WS-TAL,其中廉价的视频级标签被用作替代监督信号 [38、41、50]。大多数现有的 WS-TAL 方法 [18、25、38、39、41、50、60、64] 遵循 “localization-by-classification” 管道:随着时间的推移执行片段分类以生成时间类激活序列,也称为 T-CAS 或 T-CAM [38、41];接下来是选择具有高响应的片段来定位可能的动作区域。然而,鉴于视频级标签的稀疏性,片段分类通常容易出错,这可能会严重损害最终的定位性能。
为了学习一个好的用于动作定位的 T-CAS,在片段分类中增强各种视频片段的特征辨别能力变得至关重要。通常,片段特征嵌入空间应满足两个属性:1)动作片段应与不属于任何动作类的背景片段分离,即动作-背景分离;2)来自同一类的动作片段应该比来自不同类的动作片段更接近,即类内紧凑性和类间可分离性。这导致了一些先前的研究 [36、41、64] 探索深度度量学习 [15、26] 或对比学习 [5] 以促进学习判别特征。如图 1(a) 和 (b) 所示,他们的重点主要是动作背景分离,通过将特定类别的动作特征推近并将动作特征从背景特征中拉开,无论是在单个视频中 [64],或在精心设计的小批量 [36、41] 中。不幸的是,他们未能捕捉到类间可分离性,并且忽略了整个数据集中训练视频中有用的 “全局” 对比。鉴于缺乏帧级注释,通常在内部使用基于片段的伪标签 [64] 或基于注意力的机制 [36、41] 作为替代。如图 1(a) 所示,动作背景分离是基于每个视频片段上的伪标签执行的。在图 1(b) 中,来自小批量的注意力池(attentionpooled)视频级特征参与了特征对比训练过程。由于学习到的注意序列中存在嘈杂的伪标签或错误激活,这些策略将不可避免地产生嘈杂的对比特征。结合这些嘈杂的对比特征可能会使片段特征训练不必要地复杂化,并导致动作定位的性能不佳。
上述观察促使我们提出一种新颖的去噪跨视频对比(DCC)算法,该算法专为弱监督时间动作定位而量身定制。如图 1(c) 所示,它包含三个关键思想。首先,为了解决弱监督 TAL 中普遍存在的伪标签噪声,设计了伪标签去噪(PLD)模块来减少噪声对比特征的负面影响。通过降低不正确伪标签的置信度分数,可以生成更准确的对比特征。其次,为了捕获整个数据集的 “全局” 对比,我们提出了区域级特征对比策略,该策略与区域级内存库(memory bank)一起,允许我们学习的模型在整个数据集中保留 “全局” 信息特征。第三,提出了一种多样化的对比训练策略,以加强动作和背景之间以及不同动作类别之间的对比。它能够促进动作背景分离、类间分离和类内紧凑。请注意,我们的 DCC 算法仅在训练期间执行,因此不会在测试中产生额外的计算成本。
在这里,我们总结了我们的主要贡献。(1)针对弱监督 TAL 提出了一种新的去噪跨视频对比算法。它减少了噪声对比特征的影响;它还捕获整个数据集的 “全局” 对比,同时促进动作背景分离、类间可分离性以及类内紧凑性。结果,片段特征的辨别能力显着增强。(2)在 THUMOS14 和 ActivityNet v1.3 数据集上进行的大量实验证明了我们的方法优于最先进的方法。具体来说,我们观察到 THUMOS14 上 IoU 阈值的平均 mAP 从 0.1 到 0.7 比基线提高了 16.7%,这是一个显着的数量,而不会在推理中产生额外的计算成本。
2. 相关工作
时间动作定位(TAL)。多年来,全监督 TAL 得到了广泛研究。它们大致可以分为两类,即双阶段方法和单阶段方法。两阶段模型 [4、7、10、21、22、24、43、45、56、62、68] 首先生成动作建议,然后通过时间边界回归对其进行分类。相反,单阶段方法 [1、23、28、65、66] 直接预测帧级动作标签。不幸的是,全监督范式依赖于框架级别的密集注释标签,这可能会非常昂贵。
弱监督 TAL 正引起越来越多的关注,因为视频级标签的成本相对较低。UntrimmedNet [50] 执行每个剪辑分类,然后通过软或硬注意选择重要剪辑以生成视频标签。STPN [38] 引入了稀疏损失来帮助稀疏选择视频片段。为了便于检测完整的动作,[33、46、69] 建议删除有区别的动作部分或随机隐藏视频片段,以推动模型探索互补动作区域。Liu 等人 [25] 设计了一个多分支网络和多样性损失来发现不同的时间片段。为了提高特征可辨别性,[33、37、41] 中探索了深度度量学习算法,以鼓励同一类的动作特征保持相似,并将与活动相关的片段与背景区分开来。CoLA [64] 提出了一个片段对比损失来改进特征空间中的硬片段表示并使它们更容易区分。同时,在 [18、39] 中引入了具有辅助背景类的显式背景建模。Nguyen 等人 [39] 从前景注意力中生成背景注意力,以便汇集背景帧来训练背景类;BaSNet [18] 设计了一种非对称训练策略来抑制背景片段激活。在 [19] 中,背景帧被建模为分布外的样本。DGAM [42] 和 CMCS [25] 中已经考虑了动作上下文分离问题。最近,在 [30、40、58、63] 中尝试为迭代网络训练生成帧级伪标签。[40] 的开创性工作提出了一种迭代细化方法,通过在每次迭代时使用伪帧级地面实况进行估计和训练。Zhai等人[63]通过考虑双流一致性和设计注意力归一化损失来生成帧级伪标签,以促进注意力预测的两极分化。[30] 中采用了期望最大化 [34] 来交替训练关键实例分配模块和前景分类模块。Yang 等人 [58] 使用相互生成的伪标签训练 RGB 和光流流,使用不确定性感知学习模块来减轻伪标签中的噪声。我们的方法还解决了伪标签噪声问题,同时它基于基于聚类的置信度投票,用于生成更准确的对比特征。在 [13] 中探索了动作前景的一致性,并采用混合注意力来提高边界精度。Lou 等人 [29] 提出了一个动作单元记忆库来学习动作单元特定的分类器。我们的方法与现有方法的差异在第 3.4 节中进行了讨论。
对比学习。作为深度度量学习 [15] 的一个重要分支,对比学习 [5、9、11、12、53] 最近在无监督表示学习方面取得了令人瞩目的进展。这些方法通过对比正对和负对来以判别方式学习表示:同一图像的两个增强可以被视为正对,而两个不同的图像被认为是负对。然而,由于缺乏标签信息 [6],不可避免地会引入假阴性样本 [5]。Prannay 等人 [16] 介绍了用于图像分类的监督对比损失,展示了在构建正负对中使用标签信息的好处。此外,一些最新的研究将对比损失扩展到各种下游任务,例如语义分割 [51、67] 和对象检测 [47、52、54],并带来了新的最先进的性能。
3. 方法
在本节中,我们首先在第 3.1 节中描述了我们的基线方法,然后在第 3.2 节中详细介绍了所提出的去噪交叉视频对比(DCC)算法。接下来在第 3.3 节中介绍了整体训练目标和我们的推理过程。最后,我们在第 3.4 节中讨论了与现有工作的差异。
3.1. 基线设置
图 2(上)展示了我们的基线算法的流程。给定一个训练视频样本 { v , y } \left\{\boldsymbol{v},\ \boldsymbol{y}\right\} {v, y},其中 y ∈ R C \boldsymbol{y}\in\mathbb{R}^C y∈RC 代表视频 v \boldsymbol{v} v 的动作标签, C C C 是动作类别的数量,我们为每个视频采样固定数量的 T T T 个非重叠片段,每个片段有 16 16 16 帧,然后使用预训练的特征提取器(例如 I3D [3])提取片段特征。接下来,我们在预训练特征上应用几层时间卷积层,以在片段之间引入一些时间参与,并使用分类头输出基本时间类激活序列(T-CAS) A b ∈ R T × ( C + 1 ) \mathcal{A}^b\in\mathbb{R}^{T\times\left(C+1\right)} Ab∈RT×(C+1)。在这里,我们还为每个片段预测了一个背景类,以更好地模拟背景。在 BaSNet [18] 之后,引入了一个称为前景选择模块的并行分支来学习与类别无关的前景概率 Q ∈ R T × 1 \mathcal{Q}\in\mathbb{R}^{T\times1} Q∈RT×1,这可以被视为动作的时间注意力。通过在时间上将 Q 与 A b \mathcal{Q} 与 \mathcal{A}^b Q与Ab 相乘,我们得到了 T-CAS A f ∈ R T × ( C + 1 ) \mathcal{A}^f\in\mathbb{R}^{T\times\left(C+1\right)} Af∈RT×(C+1),它过滤掉了非动作预测。在多实例学习 [8] 之后,我们在 A b \mathcal{A}^b Ab 和 A f \mathcal{A}^f Af 上应用时间 t o p − k top-k top−k 池化,然后是 s o f t m a x softmax softmax 以分别生成视频级别预测 p b , p f ∈ R C + 1 \boldsymbol{p}^b,\ \boldsymbol{p}^f\in\mathbb{R}^{C+1} pb, pf∈RC+1。
通过使用片段二元交叉熵损失,我们将 MIL 损失
计算为,
其中,通过引入背景标签, y b , y f \boldsymbol{y}^b,\ \boldsymbol{y}^f yb, yf 是 p b , p f \boldsymbol{p}^b,\ \boldsymbol{p}^f pb, pf 对应的标签。具体来说,对于 1 ≤ c ≤ C , y c b = y c f = y c 1\le c\le C,\ \boldsymbol{y}_c^b=\boldsymbol{y}_c^f=\boldsymbol{y}_c 1≤c≤C, ycb=ycf=yc。 y C + 1 b \boldsymbol{y}_{C+1}^b yC+1b 设置为 1 1 1,因为所有训练视频都包含背景片段,而 y C + 1 f \boldsymbol{y}_{C+1}^f yC+1f 设置为 0 0 0,因为背景片段在 A f \mathcal{A}^f Af 中被过滤。为了使前景分数更加两极化,我们还在 Q \mathcal{Q} Q 上应用了 L 1 L_1 L1 归一化损失 [38], L n o r m = 1 T ∑ t = 1 T ∣ Q t ∣ \mathcal{L}_{norm}=\frac{1}{T}\sum_{t=1}^{T}\left|\mathcal{Q}_t\right| Lnorm=T1∑t=1T∣Qt∣。这种基线方法的最终损失可以表述为,
其中 γ \gamma γ 是一个平衡因子,根据 [18] 设置为 1 e − 5 1e-5 1e−5。
3.2. 去噪交叉视频对比算法
我们的 DCC 概览如图 2(底部)所示。我们的管道包括三个组件,即片段伪标签生成(SPG)、伪标签去噪(PLD)和去噪对比学习(DCL)。SPG 旨在估计视频中动作和背景区域提取的片段标签,PLD 旨在强调自信的视频区域,同时抑制不可靠的视频区域,以缓解片段标签的噪声问题。DCL 负责构建去噪对比特征,并为对比学习生成正负特征对。
片段式伪标签生成。为了在弱监督设置下确定所需的动作或背景部分,我们选择通过 [30] 中的阈值化 A b \mathcal{A}^b Ab 来生成伪标签 A ^ {\hat{\mathcal{A}}} A^。沿着类别维度 ε ( ⋅ ) \varepsilon\left(\cdot\right) ε(⋅) 的 s o f t m a x softmax softmax 函数首先应用于 A b \mathcal{A}^b Ab 以将 l o g i t s logits logits 映射到概率分数。这个过程被表述为
其中 θ c \theta_c θc 是类别 c c c 的阈值,设置为 ε ( A b ) \varepsilon\left(\mathcal{A}^b\right) ε(Ab) 沿时间维度的平均值; Φ \Phi Φ 是阈值操作,其中如果 ε ( A b ) t , c ≥ θ c \varepsilon\left(\mathcal{A}^b\right)_{t,\ c}\geq\theta_c ε(Ab)t, c≥θc,则 A ^ t , c {\hat{\mathcal{A}}}_{t,\ c} A^t, c 为 1 1 1,否则为 0 0 0。
伪标签去噪。为了解决噪声估计片段伪标签 A ^ {\hat{\mathcal{A}}} A^ 的问题,我们设计了一个伪标签去噪(PLD)模块,旨在为每个视频片段分配一个置信度分数,该分数估计其伪标签是可信赖的真实标签的概率。直观上,同一集群中的视频片段更有可能保持相同的类别标签;因此异常值,即伪标签与每个集群中的大多数不一致的视频片段,被错误分类的可能性很高,应该分配较低的置信度分数。
具体来说,我们使用基本的 K − m e a n s K-means K−means 算法 [20] 对嵌入特征进行聚类,聚类中心的数量设置为 K K K。特征聚类后,每个片段将被分配到一个聚类中心,用 { E t } t = 1 T \left\{E_t\right\}_{t=1}^T {Et}t=1T 表示,其中 E t ∈ [ 1 , K ] E_t\in\left[1,\ K\right] Et∈[1, K]。伪标签 A ^ t , c {\hat{\mathcal{A}}}_{t,\ c} A^t, c 的置信度分数可以通过置信度投票策略来计算,
其中 1 ( c o n d i t i o n ) \mathbb{1}(condition) 1(condition) 是指示函数,即如果满足条件则返回 1 1 1,否则返回 0 0 0 的函数。 ∧ \land ∧ 表示与运算。该策略将聚类中心 E t E_t Et 中与第 t t t 个片段具有相同伪标签的片段的百分比作为置信度分数。
去噪对比学习。然后使用 PLD 模块中计算的估计伪标签和置信度分数来生成对比特征。为了捕获整个数据集的 “全局” 对比,我们提出了区域级特征对比策略,该策略与区域级内存库一起,允许我们学习的模型在整个数据集中保留 “全局” 信息特征。如图 2 所示,在 [5] 之后,我们首先在嵌入特征之后附加一个投影头以获得更紧凑的表示,称为 X ∈ R T × d X\in\mathbb{R}^{T\times d} X∈RT×d,其中 d d d 是投影特征的维度,用于构造学习。然后我们通过以元素方式将投影特征 X X X 乘以伪标签 A c ^ \widehat{\mathcal{A}_c} Ac 及其相应的置信度分数来计算去噪动作视频特征 F F F:
其中 c c c 是编码 X X X 的视频标签。对于背景特征 F ′ F^\prime F′ ,我们相应地改变伪标签 A ^ t , c {\hat{\mathcal{A}}}_{t,\ \ c} A^t, c 为 1 − A ^ t , c 1-{\hat{\mathcal{A}}}_{t,\ \ c} 1−A^t, c,
接下来,我们将去噪的动作视频特征 F F F 沿时间维度平均划分为 M \mathcal{M} M 个动作区域特征,表示为 F ⟹ { R m } m = 0 M F{\Longrightarrow\left\{R_m\right\}}_{m=0}^\mathcal{M} F⟹{Rm}m=0M,其中我们通过将视频特征视为相对较大的区域特征来设置 R 0 = F R_0=F R0=F。最后,我们暂时平均池化这些区域特征以获得它们对应的向量 { r m } m = 0 M \left\{r_m\right\}_{m=0}^M {rm}m=0M 用于对比学习。类似地,背景区域特征 { r m ′ } m = 0 M \left\{r_m^\prime\right\}_{m=0}^M {rm′}m=0M 也被生成。同时,引入了一个区域级别的内存库来存储所有训练视频的区域特征,这使得我们的模型能够从整个数据集中学习 “全局” 对比度。
鉴于这些去噪区域级特征,我们然后应用多样化的对比训练策略来加强动作和背景之间以及不同动作类别之间的对比。正 / 负样本对由两个来源构成,即视频内和跨视频。详细地,给定一个去噪的动作区域特征 r m r_m rm,其正样本集 P m \mathcal{P}_m Pm 包括:1)来自具有相同类别标签的同一视频的动作区域特征;2)具有相同类别标签的其他视频的动作区域特征。其负样本集 N m \mathcal{N}_m Nm 包括:1)来自同一视频的背景区域特征;2)来自其他视频的背景区域特征;3)来自其他视频但具有不同类别标签的动作区域特征。配备了 InfoNCE [12] 损失,我们可以将对比学习表述为,
其中 τ \tau τ 是温度参数。请注意,损失函数中的所有嵌入都是 l 2 l_2 l2 归一化的。使用 L d c c \mathcal{L}_{dcc} Ldcc,该模型能够捕获动作背景分离、类内紧凑性和类间可分离性。
3.3. 整体训练目标和推理
我们模型的总体训练目标是
其中 β \beta β 是一个平衡因子。由于对比特征在早期训练阶段提供的信息较少,我们在网络训练期间逐渐将 β \beta β 从 0.1 0.1 0.1 增加到 10000 10000 10000,以更多地关注早期训练阶段的 MIL 损失,并在后期规范特征空间学习。我们注意到 DCC 算法仅在训练期间应用,并将在推理时删除。因此它不会在部署阶段引入任何额外的计算。
在推理阶段,我们首先使用阈值 θ v \theta_v θv 对视频级预测 p f \boldsymbol{p}^f pf 进行阈值确定要定位的动作类别。对于每个选定的类别,我们用 θ l \theta_l θl 对 T-CAS A b \mathcal{A}_b Ab 进行阈值处理以获得候选动作建议。为了丰富提案池,应用了多个阈值,并使用非最大抑制(NMS)来删除重复的提案。
3.4. 讨论
深度度量学习 [15、26] 和对比学习 [5] 也在 [33、36、37、41、64] 中探索了时间动作定位,差异讨论如下:(1)[64] 设计了一个逐片段的对比损失以改进硬动作或背景片段特征。他们只考虑单个视频中的动作背景分离。在我们的 DCC 中,提出了一种多样化的对比学习策略来同时对比动作背景和不同的类别。此外,我们的区域级特征对比使模型能够学习整个数据集的 “全局” 对比。(2)[36、41] 利用深度度量学习技术在小批量中跨视频级特征实施动作背景分离,同时我们的方法捕获整个数据集中的区域级对比度并学习类间可分离性。(3)[41、64] 未能解决有噪声的对比特征问题,而在我们的方法中,一种新颖的伪标签去噪模块旨在生成更好的对比特征。(4)在 [33、37] 中,对比了有噪声的注意力池视频特征和特定类别的中心特征,而在我们的 DCC 中,在新的区域级存储库中,在去噪的区域级特征和丰富的 “全局” 特征之间进行对比。
4. 实验
4.1. 数据集和评估指标
对两个流行的基准数据集进行了实证分析,包括 THUMOS14 [14] 和 ActivityNet v1.3 [2]。THUMOS14 包括 20 个类别的未修剪视频。这些视频用帧级标签密集注释,其中它们的时间长度变化很大。请注意,我们仅使用 WS-TAL 中的视频级标签。按照惯例 [18、41],我们在验证集中使用 200 个视频进行训练,在测试集中使用 213 个视频进行评估。ActivityNet v1.3 [2] 是 ActivityNet v1.2 的超集,包含 200 个动作类别的 10024 个训练视频、4926 个验证视频和 5044 个测试视频。由于测试集的注释未发布,按照惯例 [33,63],我们在训练集上训练我们的模型并在验证集上对其进行评估。
按照标准协议,使用不同 IoU(Intersection-overUnion)下的 mAP(mean Average Precision)与 ActivityNet2 提供的 benchmark 代码一起进行评估。
4.2. 实施细节
该网络在具有单个 Tesla P40 GPU 的 PC 上的 PyTorch 工具箱中实现。使用 TV-L1 算法 [61] 生成光流帧。在 [18、64] 之后,THUMOS14 和 ActivityNet v1.3 的采样片段数量 T 分别设置为 750 和 50。为了公平比较,I3D [3] 特征提取器没有微调。前景选择模块包含两个具有 ReLU [35] 激活的全连接层。投影头 [5] 以类似的方式实现,输出维度 d 设置为 512。我们使用 Adam 优化器 [17],学习率为 0.0001 0.0001 0.0001。根据 [5], τ \tau τ 设置为 0.1 0.1 0.1。THUMOS14 的聚类中心 K K K 和区域编号 M \mathcal{M} M 均设置为 5 5 5,ActivityNet v1.3 的聚类中心 K K K 和区域编号 M \mathcal{M} M 均设置为 2 2 2。THUMOS14 的训练时间为 4 4 4 小时,ActivityNet v1.3 的训练时间为 15 15 15 小时。THUMOS14 的 GPU 内存消耗约为 3.5 G B 3.5GB 3.5GB。从经验上讲,为了避免所有片段都被分类为背景的模型崩溃,我们采用两阶段训练模式,即首先训练基线网络生成伪标签,然后我们从头开始优化整个网络。 θ v \theta_v θv 设置为 0.2 0.2 0.2。 θ l \theta_l θl 的范围从 0 0 0 到 0.9 0.9 0.9,步长为 0.025 0.025 0.025。
4.3. 消融研究
在本节中,我们使用 THUMOS14 对核心模型设计的有效性进行了详细分析。
每个组件的作用。表1给出了剔除DCC不同模块的比较结果。就 IoU 阈值的平均 mAP 从 0.1 到 0.7 而言,没有去噪的 DCC 模型将基线性能大大提高了 12.2%(从 37.7% 到 42.3%),验证了我们的方法提高特征可辨性的有效性。跨视频对比算法的更详细分析和可视化在以下小节中。当配备 PLD 模块时,我们的 DCC 进一步提高了 4% 的动作定位性能。正确和错误标签的平均置信度分数如表 2 所示。可以看出,正确的伪标签比这些不正确的伪标签获得更高的平均置信度分数,验证了我们的 PLD 模块区分正确伪标签和伪标签的有效性。不正确的。在表 3 中,我们使用 K-means 对不同数量的簇 K K K 进行了实验。可以观察到,在较宽的 K K K 范围下,结果均优于未考虑噪声问题的模型,这进一步证明了我们提出的伪标签去噪模块的实用性和鲁棒性。
动作背景分离。为了研究我们的模型在捕捉动作-背景分离方面的有效性,我们进行了一个对比实验,结果如表 4 所示。可以观察到,动作定位性能显著提高,平均提高 1.1% 的绝对值 mAP@0.1:0.7,验证了我们学习动作背景分离模型的有效性。此外,在图 3 中,我们分别将来自 THUMOS14 测试集的视频示例的嵌入特征可视化为基线和我们的 DCC。使用 t-SNE 工具 [48] 将嵌入投影到二维空间以进行可视化。正如我们所看到的,我们的方法可以比基线模型更好地将动作与背景分开。
类内紧凑性和类间可分离性。为了研究类内紧凑性和类间可分离性建模的重要性,我们进一步介绍了不同动作类之间的对比以加强类间可分离性(表 4 中的第 3 行)。这些结果表明,由于对类内紧凑性和类间可分离性进行建模,平均 mAP@0.1:0.7 的性能进一步提高了 0.8% 的绝对值。然后,我们在图 4 中可视化各种类别的学习特征分布,其中左侧部分显示了使用基线 MIL 损失训练的模型的特征空间,右侧部分显示了我们的 DCC 模型的特征空间。据观察,我们模型的片段嵌入更加紧凑且分离良好,可以产生更具辨别力的特征并提高动作定位性能。
不同层次的对比特征。当仅使用视频级特征(表 4 中的第 3 行)进行对比学习时,该模型获得 39.6% 的平均 mAP@0.1:0.7。凭借我们的区域级特征(第 4 行),我们实现了显着的性能提升(平均 mAP 为 39.6% → 42.3%),这有力地验证了我们的区域级对比特征设计的有效性。此外,在表 5 中,我们评估了不同区域数 M \mathcal{M} M 的效果,它表示分割视频的粒度。 M \mathcal{M} M 值越大,特征粒度越细。表 5 中的实验结果表明:(1)在相对较粗的粒度内,较大的 M \mathcal{M} M 通常会导致较高的 mAP 分数,因为在对比训练过程中保留了更多的特征;(2)太细粒度( M > 5 \mathcal{M}>5 M>5)并没有进一步提高性能。我们推测这是因为过于细粒度的特征容易引入嘈杂的对比特征并导致次优的对比训练。
来自不同视频的对比特征。表 6 显示了消融实验,用于验证同一视频、小批量和整个数据集中各种对比特征的贡献。据观察,我们在整个数据集上的 “视频间对比度” 在小批量上显着提高了 “视频内对比度”和“视频间对比度” 的性能。这证明了我们的 DCC 在通过利用整个数据集的“全局”对比来学习更好的片段嵌入方面的优势。同时,随着越来越多的视频特征参与对比训练,mAP 分数逐渐增加。这一观察与许多最近的无监督对比学习工作 [5、12、53] 是一致的。
泛化分析。我们通过将 DCC 算法应用于两个最近的基线模型 STPN [38] 和 BaSNet [18] 来验证其泛化能力。实验结果如表 7 所示。在与 DCC 集成后,这两种方法的性能在平均 mAP@0.1:0.7 分数上分别显着提高了 20.9% 和 16.7%。这验证了我们的方法在不同主干上的良好泛化能力。
4.4. 与最先进技术的比较
我们将我们的方法与表 8 中 THUMOS14 测试集上不同监督级别下的最先进方法进行了比较。请注意,“完整” 表示使用帧注释进行训练;“Weak †” 表示使用新收集的数据 [39] 或附加注释 [31、37、57]。我们的方法优于最近提出的弱监督方法,例如 UM [19] 和 FAC-Net [13],有很大的差距。IoU 阈值从 0.1 到 0.7 的平均 mAP 甚至达到了 44.0%,使 state-of-the-art 达到了一个新的水平。我们的方法在几乎所有 IoU 阈值上也优于弱 † 方法,甚至与全监督方法相比也能获得有竞争力的结果,这大大缩小了弱监督 TAL 和全监督 TAL 之间的差距。表 9 显示了对 ActivityNet v1.3 基准的评估。我们报告了各种 IoU 阈值下的 mAP 分数,并报告了 IoU 阈值从 0.5 到 0.95 的平均 mAP,步长为 0.05。可以看出,与最先进的方法相比,我们的方法表现出色。
5. 结论
在本文中,我们提出了一种新颖的去噪跨视频对比算法,该算法专为弱监督时间动作定位而设计。我们的主要见解是通过三个关键要素来增强特征辨别能力,即解决嘈杂对比特征的伪标签去噪模块、区域级特征对比策略和区域级记忆库以捕获“全局”交叉视频对比,以及多样化对比学习策略来规范片段嵌入表示。对两个基准的大量实验证明了我们方法的卓越性能。
参考文献
[1] Shyamal Buch, Victor Escorcia, Bernard Ghanem, Li FeiFei, and Juan Carlos Niebles. End-to-end, single-stream temporal action detection in untrimmed videos. In Procedings of the British Machine Vision Conference (BMVC), 2019. 2
[2] Fabian Caba Heilbron, Victor Escorcia, Bernard Ghanem, and Juan Carlos Niebles. Activitynet: A large-scale video benchmark for human activity understanding. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 961–970, 2015. 6
[3] Joao Carreira and Andrew Zisserman. Quo vadis, action recognition? a new model and the kinetics dataset. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 6299–6308, 2017. 3, 6
[4] Yu-Wei Chao, Sudheendra Vijayanarasimhan, Bryan Seybold, David A Ross, Jia Deng, and Rahul Sukthankar. Rethinking the faster r-cnn architecture for temporal action localization. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 1130– 1139, 2018. 1, 2, 8
[5] Ting Chen, Simon Kornblith, Mohammad Norouzi, and Geoffrey Hinton. A simple framework for contrastive learning of visual representations. In Proceedings of the 33rd International Conference on Machine Learning (ICML), pages 1597–1607, 2020. 1, 3, 5, 6, 7
[6] Tsai-Shien Chen, Wei-Chih Hung, Hung-Yu Tseng, ShaoYi Chien, and Ming-Hsuan Yang. Incremental false negative detection for contrastive learning. arXiv preprint arXiv:2106.03719, 2021. 3
[7] Xiyang Dai, Bharat Singh, Guyue Zhang, Larry S Davis, and Yan Qiu Chen. Temporal context network for activity localization in videos. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), pages 5793–5802, 2017. 1, 2
[8] Thomas G Dietterich, Richard H Lathrop, and Tomas´ Lozano-Perez. Solving the multiple instance problem with ´ axis-parallel rectangles. Artificial Intelligence, 89(1-2):31– 71, 1997. 3
[9] Alexey Dosovitskiy, Jost Tobias Springenberg, Martin Riedmiller, and Thomas Brox. Discriminative unsupervised feature learning with convolutional neural networks. Advances in Neural Information Processing Systems, 27:766– 774, 2014. 3
[10] Jiyang Gao, Zhenheng Yang, and Ram Nevatia. Cascaded boundary regression for temporal action detection. arXiv preprint arXiv:1705.01180, 2017. 2
[11] Raia Hadsell, Sumit Chopra, and Yann LeCun. Dimensionality reduction by learning an invariant mapping. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 1735–1742, 2006. 3
[12] Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, and Ross Girshick. Momentum contrast for unsupervised visual representation learning. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 9729–9738, 2020. 3, 5, 7 [13] Linjiang Huang, Liang Wang, and Hongsheng Li. Foreground-action consistency network for weakly supervised temporal action localization. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), pages 8002–8011, 2021. 3, 8
[14] Yu-Gang Jiang, Jingen Liu, A Roshan Zamir, George Toderici, Ivan Laptev, Mubarak Shah, and Rahul Sukthankar. Thumos challenge: Action recognition with a large number of classes, 2014. 5
[15] Mahmut Kaya and Hasan S¸ akir Bilge. Deep metric learning: A survey. Symmetry, 11(9):1066, 2019. 1, 3, 5
[16] Prannay Khosla, Piotr Teterwak, Chen Wang, Aaron Sarna, Yonglong Tian, Phillip Isola, Aaron Maschinot, Ce Liu, and Dilip Krishnan. Supervised contrastive learning. arXiv preprint arXiv:2004.11362, 2020. 3
[17] Diederik P Kingma and Jimmy Ba. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980, 2014. 6
[18] Pilhyeon Lee, Youngjung Uh, and Hyeran Byun. Background suppression network for weakly-supervised temporal action localization. Proceedings of the AAAI Conference on Artificial Intelligence (AAAI), 34(7):11320–11327, 2020. 1, 3, 4, 6, 7, 8
[19] Pilhyeon Lee, Jinglu Wang, Yan Lu, and Hyeran Byun. Weakly-supervised temporal action localization by uncertainty modeling. arXiv preprint arXiv:2006.07006, 2020. 3, 8
[20] Aristidis Likas, Nikos Vlassis, and Jakob J Verbeek. The global k-means clustering algorithm. Pattern Recognition, 36(2):451–461, 2003. 4
[21] Chuming Lin, Jian Li, Yabiao Wang, Ying Tai, Donghao Luo, Zhipeng Cui, Chengjie Wang, Jilin Li, Feiyue Huang, and Rongrong Ji. Fast learning of temporal action proposal via dense boundary generator. In Proceedings of the AAAI Conference on Artificial Intelligence (AAAI), pages 11499– 11506, 2020. 2
[22] Tianwei Lin, Xiao Liu, Xin Li, Errui Ding, and Shilei Wen. Bmn: Boundary-matching network for temporal action proposal generation. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), pages 3889–3898, 2019. 2
[23] Tianwei Lin, Xu Zhao, and Zheng Shou. Single shot temporal action detection. In Proceedings of the 25th ACM International Conference on Multimedia (ACM MM), pages 988– 996, 2017. 2
[24] Tianwei Lin, Xu Zhao, Haisheng Su, Chongjing Wang, and Ming Yang. Bsn: Boundary sensitive network for temporal action proposal generation. In Proceedings of the European Conference on Computer Vision (ECCV), pages 3–19, 2018. 2, 8
[25] Daochang Liu, Tingting Jiang, and Yizhou Wang. Completeness modeling and context separation for weakly supervised temporal action localization. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 1298–1307, 2019. 1, 3, 8
[26] Weiyang Liu, Yandong Wen, Zhiding Yu, and Meng Yang. Large-margin softmax loss for convolutional neural networks. In Proceedings of the 33rd International Conference on Machine Learning (ICML), pages 507–516, 2016. 1, 5
[27] Ziyi Liu, Le Wang, Qilin Zhang, Zhanning Gao, Zhenxing Niu, Nanning Zheng, and Gang Hua. Weakly supervised temporal action localization through contrast based evaluation networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 3899–3908, 2019. 8
[28] Fuchen Long, Ting Yao, Zhaofan Qiu, Xinmei Tian, Jiebo Luo, and Tao Mei. Gaussian temporal awareness networks for action localization. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 344–353, 2019. 1, 2, 8
[29] Wang Luo, Tianzhu Zhang, Wenfei Yang, Jingen Liu, Tao Mei, Feng Wu, and Yongdong Zhang. Action unit memory network for weakly supervised temporal action localization. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 9969–9979, 2021. 3, 8
[30] Zhekun Luo, Devin Guillory, Baifeng Shi, Wei Ke, Fang Wan, Trevor Darrell, and Huijuan Xu. Weakly-supervised action localization with expectation-maximization multiinstance learning. In Proceedings of the European Conference on Computer Vision (ECCV), 2020. 3, 4, 8
[31] Fan Ma, Linchao Zhu, Yi Yang, Shengxin Zha, Gourab Kundu, Matt Feiszli, and Zheng Shou. Sf-net: Single-frame supervision for temporal action localization. In Proceedings of the European Conference on Computer Vision (ECCV), 2020. 8
[32] Yu-Fei Ma, Xian-Sheng Hua, Lie Lu, and Hong-Jiang Zhang. A generic framework of user attention model and its application in video summarization. IEEE Transactions on Multimedia, 7(5):907–919, 2005. 1
[33] Kyle Min and Jason J. Corso. Adversarial background-aware loss for weakly-supervised temporal activity localization. In Proceedings of the European Conference on Computer Vision (ECCV), 2020. 2, 3, 5, 6, 8
[34] Todd K Moon. The expectation-maximization algorithm. IEEE Signal processing magazine, 13(6):47–60, 1996. 3
[35] Vinod Nair and Geoffrey E. Hinton. Rectified linear units improve restricted boltzmann machines. In Proceedings of the 27th International Conference on Machine Learning (ICML), pages 807–814, 2010. 6
[36] Sanath Narayan, Hisham Cholakkal, Munawar Hayat, Fahad Shahbaz Khan, Ming-Hsuan Yang, and Ling Shao. D2net: Weakly-supervised action localization via discriminative embeddings and denoised activations. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), pages 13608–13617, 2021. 1, 2, 5, 8
[37] Sanath Narayan, Hisham Cholakkal, Fahad Shahbaz Khan, and Ling Shao. 3c-net: Category count and center loss for weakly-supervised action localization. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), pages 8679–8687, 2019. 3, 5, 8
[38] Phuc Nguyen, Bohyung Han, Ting Liu, and Gautam Prasad. Weakly supervised action localization by sparse temporal pooling network. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 6752–6761, 2018. 1, 2, 4, 7, 8
[39] Phuc Nguyen, Deva Ramanan, and Charless Fowlkes. Weakly-supervised action localization with background modeling. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), pages 5502–5511, 2019. 1, 3, 8
[40] Alejandro Pardo, Humam Alwassel, Fabian Caba, Ali Thabet, and Bernard Ghanem. Refineloc: Iterative refinement for weakly-supervised action localization. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), pages 3319–3328, 2021. 3
[41] Sujoy Paul, Sourya Roy, and Amit K. Roy-Chowdhury. Wtalc: Weakly-supervised temporal activity localization and classification. In Proceedings of the European Conference on Computer Vision (ECCV), pages 588–607, 2018. 1, 2, 3, 5, 6, 8
[42] Baifeng Shi, Qi Dai, Yadong Mu, and Jingdong Wang. Weakly-supervised action localization by generative attention modeling. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 1009–1019, 2020. 3, 8
[43] Zheng Shou, Jonathan Chan, Alireza Zareian, Kazuyuki Miyazawa, and Shih-Fu Chang. Cdc: Convolutional-deconvolutional networks for precise temporal action localization in untrimmed videos. In Proceedings of the IEEE conference on computer vision and pattern recognition (CVPR), pages 5734–5743, 2017. 1, 2
[44] Zheng Shou, Hang Gao, Lei Zhang, Kazuyuki Miyazawa, and Shih-Fu Chang. Autoloc: Weakly-supervised temporal action localization in untrimmed videos. In Proceedings of the European Conference on Computer Vision (ECCV), pages 162–179, 2018. 8
[45] Zheng Shou, Dongang Wang, and Shih-Fu Chang. Temporal action localization in untrimmed videos via multi-stage cnns. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 1049–1058, 2016. 2, 8
[46] Krishna Kumar Singh and Yong Jae Lee. Hide-and-seek: Forcing a network to be meticulous for weakly-supervised object and action localization. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), pages 3544–3553, 2017. 2
[47] Peng Tang, Chetan Ramaiah, Yan Wang, Ran Xu, and Caiming Xiong. Proposal learning for semi-supervised object detection. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), pages 2291– 2301, 2021. 3
[48] Laurens Van der Maaten and Geoffrey Hinton. Visualizing data using t-sne. Journal of machine learning research, 9(11), 2008. 6
[49] Sarvesh Vishwakarma and Anupam Agrawal. A survey on activity recognition and behavior understanding in video surveillance. The Visual Computer, 29(10):983–1009, 2013. 1
[50] Limin Wang, Yuanjun Xiong, Dahua Lin, and Luc Van Gool. Untrimmednets for weakly supervised action recognition and detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 6402–6411, 2017. 1, 2, 8
[51] Wenguan Wang, Tianfei Zhou, Fisher Yu, Jifeng Dai, Ender Konukoglu, and Luc Van Gool. Exploring cross-image pixel contrast for semantic segmentation. arXiv preprint arXiv:2101.11939, 2021. 3
[52] Fangyun Wei, Yue Gao, Zhirong Wu, Han Hu, and Stephen Lin. Aligning pretraining for detection via object-level contrastive learning. arXiv preprint arXiv:2106.02637, 2021. 3
[53] Zhirong Wu, Yuanjun Xiong, Stella X Yu, and Dahua Lin. Unsupervised feature learning via non-parametric instance discrimination. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 3733–3742, 2018. 3, 7
[54] Enze Xie, Jian Ding, Wenhai Wang, Xiaohang Zhan, Hang Xu, Peize Sun, Zhenguo Li, and Ping Luo. Detco: Unsupervised contrastive learning for object detection. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), pages 8392–8401, 2021. 3
[55] Bo Xiong, Yannis Kalantidis, Deepti Ghadiyaram, and Kristen Grauman. Less is more: Learning highlight detection from video duration. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 1258–1267, 2019. 1
[56] Huijuan Xu, Abir Das, and Kate Saenko. R-c3d: Region convolutional 3d network for temporal activity detection. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), pages 5783–5792, 2017. 1, 2
[57] Yunlu Xu, Chengwei Zhang, Zhanzhan Cheng, Jianwen Xie, Yi Niu, Shiliang Pu, and Fei Wu. Segregated temporal assembly recurrent networks for weakly supervised multiple action detection. In Proceedings of the AAAI Conference on Artificial Intelligence (AAAI), volume 33, pages 9070–9078, 2019. 8
[58] Wenfei Yang, Tianzhu Zhang, Xiaoyuan Yu, Tian Qi, Yongdong Zhang, and Feng Wu. Uncertainty guided collaborative training for weakly supervised temporal action detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 53–63, 2021. 3
[59] Tan Yu, Zhou Ren, Yuncheng Li, Enxu Yan, Ning Xu, and Junsong Yuan. Temporal structure mining for weakly supervised action detection. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), pages 5522–5531, 2019. 8
[60] Yuan Yuan, Yueming Lyu, Xi Shen, Ivor W Tsang, and Dit-Yan Yeung. Marginalized average attentional network for weakly-supervised learning. arXiv preprint arXiv:1905.08586, 2019. 1
[61] Christopher Zach, Thomas Pock, and Horst Bischof. A duality based approach for realtime tv-l 1 optical flow. In Joint Pattern Recognition Symposium, pages 214–223, 2007. 6
[62] Runhao Zeng, Wenbing Huang, Mingkui Tan, Yu Rong, Peilin Zhao, Junzhou Huang, and Chuang Gan. Graph convolutional networks for temporal action localization. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), pages 7094–7103, 2019. 2
[63] Yuanhao Zhai, Le Wang, Wei Tang, Qilin Zhang, Junsong Yuan, and Gang Hua. Two-stream consensus network for weakly-supervised temporal action localization. In Proceedings of the European Conference on Computer Vision (ECCV), 2020. 3, 6, 8
[64] Can Zhang, Meng Cao, Dongming Yang, Jie Chen, and Yuexian Zou. Cola: Weakly-supervised temporal action localization with snippet contrastive learning. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2021. 1, 2, 3, 5, 6, 8
[65] Da Zhang, Xiyang Dai, Xin Wang, and Yuan-Fang Wang. S3d: single shot multi-span detector via fully 3d convolutional networks. arXiv preprint arXiv:1807.08069, 2018. 2
[66] Peisen Zhao, Lingxi Xie, Chen Ju, Ya Zhang, Yanfeng Wang, and Qi Tian. Bottom-up temporal action localization with mutual regularization. In Proceedings of the European Conference on Computer Vision (ECCV), pages 539–555, 2020. 1, 2
[67] Xiangyun Zhao, Raviteja Vemulapalli, Philip Andrew Mansfield, Boqing Gong, Bradley Green, Lior Shapira, and Ying Wu. Contrastive learning for label efficient semantic segmentation. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), pages 10623–10633, 2021. 3
[68] Yue Zhao, Yuanjun Xiong, Limin Wang, Zhirong Wu, Xiaoou Tang, and Dahua Lin. Temporal action detection with structured segment networks. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), pages 2914–2923, 2017. 1, 2, 8
[69] Jia-Xing Zhong, Nannan Li, Weijie Kong, Tao Zhang, Thomas H Li, and Ge Li. Step-by-step erasion, one-by-one collection: a weakly supervised temporal action detector. In Proceedings of the 26th ACM International Conference on Multimedia (ACM MM), pages 35–44, 2018. 2