Negative Sample Matters: A Renaissance of Metric Learning for Temporal Grounding 论文阅读
文章信息:
发表于:AAAI2022
原文链接:https://arxiv.org/pdf/2109.04872
源码:https://github.com/MCG-NJU/MMN
Abstract
时序定位旨在定位与给定自然语言查询语义对齐的视频片段。现有方法通常对融合表示应用检测或回归管道,研究重点在于设计复杂的预测头或融合策略。相反,从将时序定位视为度量学习问题的角度出发,我们提出了互匹配网络(MMN),以在联合嵌入空间中直接建模语言查询和视频片段之间的相似性。这一新的度量学习框架能够从两个新方面充分利用负样本:在互匹配方案中构建跨模态负样本对,以及挖掘不同视频间的负样本对。这些新的负样本可以通过跨模态互匹配来最大化两种模态的互信息,从而增强两种模态的联合表示学习。实验表明,我们的MMN在四个视频定位基准测试中与最先进的方法相比,取得了极具竞争力的性能。基于MMN,我们为第三届PIC研讨会的HC-STVG挑战赛提出了获胜解决方案。这表明,通过捕捉联合嵌入空间中本质的跨模态相关性,度量学习仍然是时序定位领域一种有前景的方法。
Introduction
图1:(a) 除了为给定查询匹配时刻外,我们还提出了一个新的辅助任务,即相互匹配,以区分真实时刻(红色框)在视频内部(绿色)或跨视频(紫色)中未匹配的查询(红色虚线)与匹配的查询。(b) 大多数以前的方法只考虑视频内部的负时刻(绿色)。(c ) 我们的相互匹配使用了来自两种模态的负对,包括视频内部(绿色)和跨视频(紫色)的负对。最好以彩色查看。
视频分析是计算机视觉领域的一个基础问题,近年来由于其在监控、机器人和互联网视频等领域的潜在应用,受到了越来越多的关注。尽管视频分类(Wang等人,2016年、2018年;Feichtenhofer等人,2019年;Wang等人,2021年)和行为定位(Zhao等人,2017年;Lin等人,2019年;Li等人,2020年)等方面已经取得了相当大的进展,但这些任务仍然局限于识别预定义的活动列表,如打棒球或削土豆等。由于视频往往包含复杂的活动,如果通过动作和对象的列表来描述,可能会导致组合爆炸,因此,将语言查询定位到视频中的任务(Hendricks等人,2017年;Gao等人,2017a年;Tang等人,2020年),作为行为定位任务的泛化以克服这些限制,最近在计算机视觉和语言社区中都获得了大量关注(He等人,2019年;Zhang等人,2019年;Zeng等人,2020年;Yuan等人,2019年;Zhang等人,2020d年;Tang等人,2020年)。形式上,给定一个口头描述,时序定位的目标是确定给定视频中在时间上与查询最语义对应的时刻(即开始和结束时间)。
尽管时序定位通过使用新的语言模态来捕捉句子和视频之间的复杂关系,为详细的视频感知提供了巨大机遇,但大多数先前的方法(Zhang等人,2019年;Yuan等人,2019年;Zhang等人,2020d年;Zeng等人,2020年;Tang等人,2020年)仍然采用早期融合设计的检测/回归方式来解决这个问题,例如,使用融合的多模态特征来预测从锚点开始的行为时刻的偏移量;或者直接在全局聚合的多模态特征上回归所需的区域。这些间接的定位方法通常忽略了所有跨模态对(即时刻和语言查询对)之间的本质关系,并且它们仅仅简单地将给定句子与来自同一视频的时刻之间的基于交并比(IoU)的分数作为监督信息(图1(b))。然而,我们认为,给定时刻与其他不匹配描述之间的负关系对于学习联合跨模态嵌入也同样重要。直观地看,给定一个包含视觉上信息丰富的动作的视频片段,训练模型以对比匹配查询和不匹配描述(图1(a))的辅助任务对时序定位任务是有益的。我们首次提议在时序定位中使用这一辅助任务,与之前的辅助任务相比,它在额外的计算成本方面显示出优势。为了从相互的方向上建模这些关系(图1( c)),我们从度量学习的角度重新审视时序定位任务,这使我们能够直接在联合跨模态嵌入空间中建模本质相似性度量,而不是像许多先前方法那样基于融合表示设计复杂的检测/回归策略。
在我们的度量学习视角下,句子和时刻在时序定位中扮演着同等重要的角色,并且我们采用了双向匹配,即给定一个模态的真实值,在另一个模态中选择正确的实例。因此,我们的方法以对称形式为两个模态构建了监督信息(图1( c)),相比之前的方法提供了更多的监督。我们的框架展现出以下几个优势:首先,度量学习的视角使我们能够从相互匹配方案中挖掘负样本。在这个意义上,一个不匹配的关系也是信息丰富的,因为它暗示这个时刻和句子在联合空间中应该被推开。为了实现这一点,我们受一种跨模态预训练方法(Li和Wang,2020)的启发,采用了一个跨模态相互匹配目标来对比正/负时刻-句子对。其次,我们通过采用跨视频负样本,利用了更多的负样本来改进我们的表示学习。相比之下,由于早期融合策略,大多数先前的方法仅利用视频内的时刻-句子对作为监督信息。最后,我们在类似于孪生网络的结构中建模视频和语言特征,并使用简单的点积进行跨模态相似性计算。因此,我们的框架通过在每个视频内的句子之间共享时刻特征,减少了计算成本。
我们的主要贡献有三方面:
(1)我们以晚期融合的方式重新审视了时序定位任务中的度量学习视角,并利用了跨视频的负视觉-语言对。我们的框架在性能和训练成本上都表现出了优势。
(2)我们的度量学习视角为时序定位任务引入了一个新的辅助任务,即跨模态相互匹配,以显著增加更多的监督信号。与以往辅助任务中需要庞大附加网络的方法相比,我们的方法思路更直接,也更有效。
(3)我们对来自时序和视频时空定位任务的四个基准数据集进行了全面的定量和定性分析,以展示我们方法的泛化能力。
Related Works
Temporal Grounding
Temporal Grounding Methods.之前的方法主要可以分为四类:
(1)基于回归的方法直接从融合的多模态特征中预测目标时刻的边界(即开始和结束),这依赖于局部区域的片段级边界分类(Ghosh等人,2019;Opazo等人,2020;Zhang等人,2020b;Chen等人,2020a)或对聚合的全局特征进行直接的边界回归(Yuan, Mei, 和 Zhu, 2019;Wang, Ma, 和 Jiang, 2020;Mun, Cho, 和 Han, 2020)。一些方法还引入了一些启发式方法,例如,通过组合推理建模片段级的行为分数并进行聚合(Liu等人,2018),或计算开始/结束概率的期望值(Ghosh等人,2019)。
(2)基于检测的方法通常首先生成候选时刻,然后在融合的多模态特征上对其进行评估(Gao等人,2017a,b;Ge等人,2019)。它们对时刻的评估采用了各种设计,例如,LSTM(Chen等人,2018;Xu等人,2019),动态过滤(Zhang等人,2019;Opazo等人,2020)或调制(Yuan等人,2019),图卷积(Zhang等人,2019),无锚检测器(Lu等人,2019;Zeng等人,2020),以及二维时刻图(Zhang等人,2020d)。
(3)基于强化学习的方法(He等人,2019;Wang, Huang, 和 Wang, 2019;Wu等人,2020)通过在视频上定义状态和行为,并将此任务视为序列决策过程,迭代地定位目标时刻。
(4)之前唯一基于度量学习的方法(Hendricks等人,2017)使用带有L2距离作为相似性度量的三元组损失来将给定的句子与正确的视频时刻进行匹配。然而,它缺少了负句子样本的重要监督,即我们新颖的相互匹配方案,以及有效的时刻关系建模,因此其结果远差于我们的方法。
Multi-modal Fusion.从第1)到3)组中的许多方法主要采用早期融合管道进行跨模态建模,例如,通过拼接(Chen等人,2018;Lin等人,2020;Wang, Ma, 和 Jiang, 2020),动态卷积(Opazo等人,2020;Zhang等人,2019;Yuan等人,2019),交叉注意力(Lu等人,2019;Zhang等人,2020a),或哈达玛积(Zeng等人,2020;Mun, Cho, 和 Han, 2020;Zhang等人,2020d)。相反,我们在联合的视觉-语言空间中使用简单的内积以晚期融合的方式衡量跨模态相似性。这不仅使我们的相互匹配方案得以实现,而且通过在相同视频中的句子之间共享视频特征,在训练过程中在计算成本方面也具有优势。
Auxiliary Tasks in Temporal Grounding.(Lin等人,2020;Xu等人,2019)探索了将查询重构作为时序定位任务的辅助任务,他们遵循基于图像的定位方法(Ramanishka等人,2017),增加了视频字幕损失。然而,这引入了额外的参数和计算成本开销,例如,LSTM(Xu等人,2019)或Transformer(Lin等人,2020)。我们提出的相互匹配的辅助任务避免了使用庞大的附加网络,同时也更加直接和有效。
Spatio-Temporal Video Grounding
随着时空动作定位(Li等人,2020)领域的最新进展,时空视频定位(Tang等人,2020)也被提出作为时序定位的扩展。通过将我们的MMN(多模态匹配网络)应用于链接的人体边界框(Kalogeiton等人,2017)以进行时间裁剪,我们实现了相较于之前基于Transformer的方法(Tang等人,2020)的显著性能提升。
Metric Learning
度量学习损失函数家族已被用于在有监督设置(Hadsell, Chopra, and LeCun 2006; Khosla et al. 2020)下学习强大的表征,其中正样本选自同一类别,负样本选自其他类别;或用于自监督设置(Wu et al. 2018; Chen et al. 2020c; He et al. 2020),通过数据增强或共现来选择正样本。与这两种设置不同,我们根据真实标签以有监督的方式选择正/负样本,但我们没有预定义的类别。此外,上述大多数方法使用单模态样本(例如图像),而我们使用跨模态的时刻-句子对。有一些视频-语言预训练方法(Li and Wang 2020; Miech et al. 2020)与我们的设置相似,但它们的目的是以无监督的方式学习视频级别的表征,而我们希望以有监督的方式增强提案级别的特征,并且不使用预训练数据集。我们为我们的相互匹配方案采用了跨模态对判别损失(Li and Wang 2020),其中两个模态中的每个实例都定义了一个唯一的类别,并且跨模态对的二分类(即匹配或不匹配)为我们提供了有价值的监督。跨模态图像/视频检索方法(Wang, Li, and Lazebnik 2016; Gabeur et al. 2020)也在度量学习框架中利用了负样本,但它们仍然将图像/视频视为一个整体。因此,我们解决的问题与它们不同。
Model
我们是首个利用负句子样本构建跨模态相互匹配方案,以建模视觉和语言模态之间双向匹配关系的研究团队。为了完成这一辅助任务,我们从度量学习的角度出发,采用了后期模态融合方法,其计算成本低于基线方法。下面我们将详细介绍我们的方法。
图2:我们的框架概述。与基线方法不同,我们采用了晚期模态融合策略,并分别在两个独立的空间中学习时刻和句子的特征嵌入,同时分别应用成对判别损失和二元交叉熵(BCE)损失。点和三角形分别代表时刻和句子的特征。红色虚线表示需要拉近的匹配时刻-句子对,而绿色/紫色虚线则表示需要推远的视频内部/跨视频的负样本。最好以彩色查看。
Problem Formulation
给定一个未修剪的视频 V V V和一个自然语言查询 S S S,时序定位任务的目标是定位一个与查询匹配的时间段 ( x s , x e ) (x_s,x_e) (xs,xe)。我们将视频表示为一系列帧的序列 V = { x i } i = 1 l v V=\{x_i\}_{i=1}^{l_v} V={xi}i=1lv,其中 x i x_i xi表示一帧, l v l_v lv表示总帧数;将查询句子表示为一系列单词的序列 S = { s i } i = 1 l s S=\{s_i\}_{i=1}^{l_s} S={si}i=1ls,其中 s i s_i si表示一个单词, l s l_s ls表示总单词数。理想情况下,检索到的时间段 ( x s ∗ , x e ∗ ) (x_s^*,x_e^*) (xs∗,xe∗)应该与句子 S S S传达相同的语义。我们采用联合空间中的特征向量来表示句子 S S S和时间段 ( x i , x j ) (x_i, x_j) (xi,xj),因此,经过 ℓ 2 \ell_2 ℓ2归一化后的视觉和文本特征的内积应该最大化。
Architecture
我们的多模态网络(MMN)采用了一种类似于孪生网络的结构,在联合的视觉-语言空间中通过简单的内积实现后期的模态融合,如图2所示。
Language Encoder.之前的工作通常会在由GloVe(Pennington, Socher, and Manning 2014)嵌入的词向量序列上使用长短期记忆网络(LSTM,Hochreiter和Schmidhuber 1997)。然而,先前方法中存在的一些不公平比较的问题,例如在不同语料库上预训练的GloVe模型,促使我们采用标准的语言编码器。我们选择DistilBERT(Sanh等,2019)是因为其模型容量较轻。对于每个输入句子 S S S,我们首先通过分词器生成单词的标记,并在开头添加一个类别嵌入标记“[CLS]”。然后,我们将这些标记输入到DistilBERT中,得到一个特征序列 { f i S } i = 1 l s + 1 \left\{\mathbf{f}_i^S\right\}_{i=1}^{l_s+1} {fiS}i=1ls+1,其中 f i S ∈ R d S \mathbf{f}_i^S\in\mathbb{R}^{d^S} fiS∈RdS,且 d S = 768 d^S=768 dS=768为特征维度。获取整个句子的嵌入通常有两种常用的聚合方法:1) 对所有标记进行全局平均池化;2) 使用类别嵌入“[CLS]”。我们的实验表明,在此任务中,全局平均池化具有更快的收敛速度和更好的性能,因此我们默认使用平均池化。
Video Encoder.我们提取输入视频的特征,并按照基线方法2D-TAN(Zhang等人,2020d)将其编码为二维时序片段特征图。我们将输入视频流分割成小的视频片段 v i i = 1 l v / t {v_i}_{i=1}^{l_v/t} vii=1lv/t,每个片段 v i v_i vi包含 t t t帧,然后使用现成的预训练卷积神经网络模型(例如C3D)提取片段级别的特征。我们通过固定的步长 l v t ⋅ N \frac{l_v}{t\cdot N} t⋅Nlv对每个视频进行固定长度的采样,以获得 N N N个片段级别的特征,并通过全连接(FC)层降低这些特征的维度,记为 f i V i = 1 N {\mathbf{f}_i^V}_{i=1}^N fiVi=1N,其中 f i V ∈ R d V \mathbf{f}_i^V\in\mathbb{R}^{d^V} fiV∈RdV。然后,我们根据基线方法(Zhang等人,2020d)构建候选片段的二维特征图 F M ∈ R N × N × d V \mathbf{F}^M\in\mathbb{R}^{N\times N\times d^V} FM∈RN×N×dV,其中我们采用最大池化作为片段级别的特征聚合策略。我们还利用了稀疏采样策略,该策略移除了高度重叠的片段,以减少候选片段的数量以及计算成本,这与2D-TAN一致。与2D-TAN(Zhang等人,2020d)不同的是,我们仅基于视觉特征,使用 L L L层二维卷积(卷积核大小为 K K K)直接对片段 F ∈ R N × N × d V \mathbf{F}\in\mathbb{R}^{N\times N\times d^V} F∈RN×N×dV的关系进行建模。如(Otani等人,2020)所述,当输入视频片段的顺序随机排列时(即进行“合理性检验”),2DTAN的性能并没有显著下降,这与直觉相悖。这表明,在一定程度上,2D-TAN忽略了视觉特征,并过度拟合了数据集中的偏差,例如基于句子的动作时序分布。我们设计的多模态网络(MMN)强制卷积滤波器实际利用视觉特征。
Joint Visual-Language Embeddings.。最后,我们基于两种模态(即监督信号中的交并比(IoU)回归和跨模态相互匹配)的相似性来评估每个片段的匹配质量。为了使语言特征聚合的收敛更加稳定,我们采用了层归一化(LayerNorm,Ba, Kiros, and Hinton 2016)。我们分别使用线性投影层或1x1卷积将语言和视觉特征投影到相同的维度 d H d^H dH。句子特征的最终表示为 f m m S , f i o u S ∈ R d H \mathbf{f}_{mm}^S,\mathbf{f}_{iou}^S\in\mathbb{R}^{d^H} fmmS,fiouS∈RdH,分别用于跨模态相互匹配(下标 m m mm mm)和IoU回归(下标 i o u iou iou)。片段的特征表示为 F m m V , F i o u V ∈ R N × N × d H \mathbf{F}_{mm}^V,\mathbf{F}_{iou}^V\in\mathbb{R}^{N\times N\times d^H} FmmV,FiouV∈RN×N×dH。
其中, W . \mathbf{W}_. W. 和 b 是可学习的参数,conv. ( x , k , s ) (\mathbf{x},k,s) (x,k,s) 表示对二维特征图 x 进行二维卷积操作,卷积核大小为 k k k,步长为 s s s。下标 i d id id 或 i o u iou iou 表示两个分支的权重是独立的。然后,我们将余弦相似度作为两个损失(即身份损失和IoU回归损失)中片段的估计分数。
其中,我们通过
ℓ
2
\ell_2
ℓ2 归一化层强制嵌入向量的范数
∣
∣
f
⋅
V
∣
∣
2
=
∣
∣
f
⋅
S
∣
∣
2
=
1
||\mathbf{f}_\cdot^V||_2=||\mathbf{f}_\cdot^S||_2=1
∣∣f⋅V∣∣2=∣∣f⋅S∣∣2=1。
Loss Functions
我们的多模态匹配网络(MMN)融合了两种互补的损失:一种是用于回归交并比(IoU)的二分类交叉熵损失,另一种是用于学习判别性特征的对偶判别损失。
Binary Cross Entropy.我们遵循2D-TAN(Zhang等人,2020d)的方法,采用缩放后的交并比(IoU)值
y
i
y_i
yi作为每个候选时刻的监督信号,如表1中的“IoU回归”所示。IoU值从
(
t
m
i
n
,
t
m
a
x
)
(t_{min},t_{max})
(tmin,tmax)线性缩放到
(
0
,
1
)
(0,1)
(0,1),并截断超出
(
0
,
1
)
(0,1)
(0,1)的值。为了公平比较,我们直接使用2DTAN中报告的
t
m
i
n
t_{min}
tmin和
t
m
a
x
t_{max}
tmax值。我们注意到,余弦相似度的范围是
s
i
o
u
∈
(
−
1
,
1
)
s^{iou}\in(-1,1)
siou∈(−1,1),而IoU信号的范围是
y
i
∈
(
0
,
1
)
y_i\in(0,1)
yi∈(0,1)。因此,我们采用常用的sigmoid函数
σ
\sigma
σ来突出中性区域附近的值变化(例如,
y
i
=
0.5
y_i=0.5
yi=0.5)。我们启发式地将
s
i
o
u
s^{iou}
siou放大10倍,以使我们的模型最终预测的范围
p
i
i
o
u
=
σ
(
10
⋅
s
i
i
o
u
)
p_i^{iou}=\sigma(10\cdot s_i^{iou})
piiou=σ(10⋅siiou)覆盖
(
0
,
1
)
(0,1)
(0,1)区间中的大部分区域。我们的多模态匹配网络(MMN)的回归分支通过二分类交叉熵(BCE)损失进行训练:
其中, p i i o u p^{iou}_i piiou是时刻的最终得分,C是有效候选的总数。
Cross-modal Mutual Matching.
如这节所述,我们的跨模态相互匹配为时间定位创造了更多的监督信号。通过对比来自视频内部和外部采样的正样本(即匹配的)时刻-句子对和负样本(即不匹配的)时刻-句子对,编码器可以在没有任何额外预训练数据集的情况下学习两种模态的更具判别性的特征。如表1所示,我们的相互匹配目标引入了两种新的监督信号:1)真实时刻与正/负句子的配对(第2行);以及2)跨视频负样本对(第7列)。相比之下,以前的检测/回归方法仅基于IoU信号采样正/负样本(第3行),而以前的度量学习方法(Hendricks等人,2017)只有单向匹配(即仅有第1行),却缺乏重要的跨模态相互匹配(即需要同时有第1行和第2行)。具体来说,我们将视频级别的跨模态对判别损失(Li和Wang,2020)调整为提议级别,以学习时刻特征
f
m
m
V
f^V_{mm}
fmmV和句子特征
f
m
m
S
f^S_{mm}
fmmS,如果时刻-句子对在语义上是匹配的,则这些特征应该相似,如果不匹配,则这些特征应该不相似。我们采用以下非参数softmax形式的条件分布:
其中,第 i i i个句子或时刻定义了一个实例级别的类别 i s i_s is或 i v i_v iv,特征嵌入 f S \mathbf{f}^S fS和 f V \mathbf{f}^V fV经过 ℓ 2 \ell_2 ℓ2归一化处理, τ s \tau_s τs和 τ v \tau_v τv是温度参数, N s N_s Ns和 N v N_v Nv是批次中采样实例的总数。尽管视频时刻和句子的条件分布相似,但由于负样本的选择,它们之间的差异不容忽视。具体来说,从视频内部低IoU的时刻或其他视频中采样 N v − 1 N_v-1 Nv−1个负视频时刻;从视频内部其他句子或其他视频中采样 N s − 1 N_s-1 Ns−1个负句子。为了确保训练过程的稳定性,我们仅采用与真实时刻的IoU低于阈值(例如,≤0.5)的时刻作为负样本。为了进一步减少潜在的假负样本信号,我们自动从负样本集中移除与真实句子相似的句子,即计算它们匹配的时刻与真实时刻的IoU,如果IoU≥0.5,则将其移除。在构建负样本集时,我们假设只有一小部分跨视频的负样本(包括句子和时刻)在语义上接近正样本。如果训练视频语料库的大小足够大,这一假设是合理的。
我们跨模态相互匹配的目标是最大化似然函数 ∏ i = 1 N p ( i s ∣ v i ) ∏ i = 1 N p ( i v ∣ s i ) \prod_{i=1}^Np(i_s|v_i)\prod_{i=1}^Np(i_v|s_i) ∏i=1Np(is∣vi)∏i=1Np(iv∣si),其中 N N N是用于训练的时刻-句子对的总数。通过二元对监督引导特征表示的学习过程,跨相关能够使网络有效地捕获模态之间的互信息。损失函数如下:
我们最终的损失函数
L
L
L是二元交叉熵损失和相互匹配损失的线性组合,而在给定查询句子的情况下,候选时刻的最终预测分数
s
s
s是这两个分数的乘积。
Experiments
Datasets
ActivityNet-Captions(Krishna等人,2017)基于ActivityNet v1.3数据集(Heilbron等人,2015),其中的视频涵盖了广泛的复杂人类动作。该数据集最初设计用于视频描述任务,最近被引入到时间定位任务中。数据集中共有37,417、17,505和17,031个用于训练、验证和测试的时刻-句子对。按照2D-TAN(Zhang等人,2020年)的设置,我们在验证集2上报告评估结果。
TACoS 数据集由从 MPIICooking 数据集(Rohrbach 等人,2012)中选取的 127 个视频组成。该数据集包含了 18,818 对厨房内不同烹饪活动的视频-语言对,并由 (Regneri 等人,2013) 进行标注。标准划分 (Gao 等人,2017a) 包括 10,146、4,589 和 4,083 个分别用于训练、验证和测试的时刻-句子对。在我们的实验中,我们在测试集上报告评估结果。
Charades-STA (Gao 等人,2017a) 是在 Charades (Sigurdsson 等人,2016) 动作识别与定位数据集的基础上扩展的版本,用于时间定位任务(Gao 等人,2017a)。该数据集包含 5,338 个视频和 12,408 个用于训练集的查询-时刻对,以及 1,334 个视频和 3,720 个用于测试集的查询-时刻对。
HC-STVG 数据集由 (Tang 等人,2020) 提出,用于在未剪辑的视频中基于给定的文本描述对目标人物的动作片段进行时空定位。该数据集包含从 AVA (Gu 等人,2018) 中选取的 5,660 个视频,每个视频对应一个视频-句子对。标准划分包含 4,500 对用于训练和 1,160 对用于测试。
Implementation Details.我们采用标准的现成视频特征提取器,并未对每个数据集进行微调。为了公平比较,我们的2D提议特征建模卷积网络与2D-TAN (Zhang等人,2020d)(最大池化版本)使用完全相同的设置,包括视觉特征(Charades使用VGG特征,ActivityNet-Captions和TACoS使用C3D特征)、采样剪辑数N、2D卷积网络层数L、核大小K和通道数dV、非极大值抑制(NMS)阈值以及缩放阈值tmin和tmax。我们将联合特征空间的维度设置为 d H d^H dH = 256,温度参数 τ s τ_s τs = τ v τ_v τv = 0.1。我们使用HuggingFace (Wolf等人,2019) 的DistilBERT (Sanh等人,2019) 的‘distilbert-base-uncased’预训练模型,以更好地标准化时间定位过程。在配对区分损失中,我们仅采样IoU低于0.5的负样本,并分别将TACoS、ActivityNet-Captions和Charades-STA的数据集的边界m设置为0.1、0.3和0.4。我们使用AdamW (Loshchilov和Hutter,2019)优化器,对于Charades数据集学习率为1 × 10⁻⁴,批量大小为48;ActivityNet Captions数据集学习率为8 × 10⁻⁴,批量大小为48;TACoS数据集学习率为1.5 × 10⁻³,批量大小为4。我们将配对区分损失的权重系数λ设置为0.1(ActivityNet Captions)和0.05(Charades和TACoS),遵循损失项应贡献相同权重梯度的原则。当我们观察到验证集上的表现开始下降时,我们会提前停止配对区分损失。DistilBERT的学习率始终是主模型的1/10。每个小批次包含B个视频而非B个时刻-句子对,其中B是批量大小。
Conclusion
在本文中,我们提出了用于时间定位的度量学习方法,即互相匹配网络(Mutual Matching Network, MMN)。特别地,我们首次提出使用互相匹配的辅助任务,要求模型在构建的负句子集合中为视频片段选择正确的句子,作为对现有监督信号的补充。通过利用强大的文本负样本,跨模态的互相匹配帮助学习到更具辨别性的特征。此外,我们的方法首次有效利用了时间定位中的跨视频负样本。在这一简单、高效的框架下,我们在四个具有挑战性的视频定位基准数据集上(Charades-STA、TACoS、ActivityNet-Captions和HC-STVG)实现了最新的性能。