[译]Deeper and Wider Siamese Networks for Real-Time Visual Tracking--翻译

最新推荐文章于 2023-08-11 11:53:40 发布

凌空的桨

最新推荐文章于 2023-08-11 11:53:40 发布

阅读量5.4k

点赞数 6

分类专栏：目标跟踪文章标签：目标跟踪

目标跟踪专栏收录该内容

9 篇文章

订阅专栏

Deeper and Wider Siamese Networks for Real-Time Visual Tracking

代码——gitlab

翻译——网盘

摘要

孪生网络因其平衡了准确性和速度而引起了视觉跟踪领域的极大关注。然而，在连体追踪器中使用的骨干网络相对较浅，例如AlexNet [18]，它没有充分利用新型深度神经网络的能力。在本文中，我们研究如何利用更深和更广泛的卷积神经网络来增强跟踪的鲁棒性和准确性。我们观察到，使用现有的强大架构直接替换主干，例如ResNet [14]和Inception [33]，并没有带来改进。主要原因是1）神经元感受野的大幅增加导致特征可辨性和定位精度降低; 2）卷积的网络padding在学习中引起位置偏差。为了解决这些问题，我们提出了新的残差模块，以消除填充的负面影响，并进一步设计使用这些模块的新架构，具有受控的感受野大小和网络步幅。设计的架构非常轻巧，并且在应用于SiamFC+ [2]和SiamRPN [20]时保证了实时跟踪速度。实验表明，仅仅由于所提出的网络架构，我们的SiamFC +和SiamRPN +相对于原始版本获得了高达9.8％/ 5.7％（AUC），23.3％/ 8.8％（EAO）和24.4％/ 25.0％（EAO）的相对改进[2,20]分别在OTB-15，VOT-16和VOT-17数据集上。

1.介绍

视觉跟踪是计算机视觉中的基本问题之一。它旨在估计视频序列中任意目标的位置，仅给出其在初始帧中的位置。实时速度跟踪在众多视觉应用中起着至关重要的作用，例如监视，机器人和人机交互[10,21,30,43]。

图1：成功图与网络深度和宽度的AUC（由W表示）。这里，width是指模块中分支的数量。通过对OTB-13的评估，使用具有不同骨干网络的SiamFC [2]获得结果。

最近，基于孪生网络的追踪器[2,7,12,13,20,34,40]由于其高速度和准确性而备受关注。然而，这些跟踪器中使用的骨干网络仍然是经典的AlexNet [18]，而不是现已证明对特征嵌入更有效的深度神经网络。为了研究这个问题，我们用更深更广的网络取代了浅层骨干网，包括VGG [29]，Inception [33]和ResNet [14]。出乎意料的是，这种简单的替换并没有带来太大的改进，甚至可能在网络深度或宽度增加时导致性能大幅下降，如图1所示。这种现象与增加网络深度和宽度有利于提升模型能力的证据背道而驰[14,33]。

为了研究潜在的原因，我们分析了Siamese网络架构，并确定神经元的感受野大小，网络步幅和特征填充是影响跟踪精度的三个重要因素。特别地，感受野确定用于计算特征的图像区域。较大的感受野提供更大的图像上下文，而较小的感受野可能无法捕捉目标对象的结构。网络步幅影响定位精度，特别是对于小尺寸物体。同时，它控制输出特征图的大小，这会影响特征可辨性和检测精度。此外，对于完全卷积结构[2]，卷积的特征填充在模型训练中引起潜在的位置偏差，使得当对象在搜索范围边界附近移动时，其被预测为目标的概率非常低。这三个因素共同阻止了孪生跟踪算法从更深入，更复杂的网络架构中受益。

在本文中，我们通过设计新的残差模块和网络架构来解决这些问题，这些模块和体系结构允许更深入和更广泛的骨干网络在孪生跟踪器中释放其功能。首先，我们提出了一组基于“瓶颈”残差块的内部裁剪（CIR）单元[14]。 CIR单元在块内部裁剪出受填充padding影响的特征（即，接收填充信号的特征），从而防止卷积滤波器学习位置偏差。其次，我们通过堆叠CIR单元设计了两种网络架构，即更深和更宽的网络。在这些网络中，为了提高定位精度，我们设计了特定的步幅和感受野。最后，我们将设计的骨干网应用于两个代表性的Siamese跟踪器：SiamFC [2]和SiamRPN [20]。我们分别在OTB-15，VOT-16和VOT-17数据集上进行实验，实验表明，仅仅由于所提出的网络架构，孪生跟踪器获得了高达9.8％/ 5.7％（AUC），23.3％/ 8.8％（EAO）和24.4％/ 25.0％（EAO）相对于原始版本 [ 2，20]。此外，设计的架构非常轻巧，允许跟踪器以实时速度运行。

这项工作的主要贡献有两方面：

1.我们对影响跟踪精度的骨干网络因素进行了系统研究，并为Siamese跟踪框架提供了架构设计指南。

2.我们基于我们提出的nopadding残差单元，为Siamese跟踪器设计了更深入，更广泛的网络架构。实验结果表明，新架构相对于基线跟踪器提供了明显的改进。代码和模型可从https://gitlab.com/MSRA_NLPR/ deep_wider_siamese_trackers获得。

在本文的其余部分，在Sec2中我们首先回顾了的Siamese跟踪的研究背景。然后对Sec3中的性能下降进行分析。根据分析，我们在Sec4中提出了新的残差模块和网络架构。实验和比较报告在Sec5。我们在Sec 6和7的论文结束时讨论了相关工作。

2. Background on Siamese Tracking

在分析图1所示性能下降的原因之前，我们简要回顾一下SiamFC [2]，它是本工作中讨论的基本框架。标准Siamese架构采用图像对作为输入，包括示例图像和候选搜索图像。图像表示感兴趣对象（例如，以第一视频帧中的目标对象为中心的图像块），而通常较大并且表示后续视频帧中的搜索区域。两个输入都由具有参数 $\large \theta$ 的ConvNet 处理。这产生两个特征映射，它们是交叉相关的（公式）

其中表示偏置项，其中相当于在图像上执行图案的穷举搜索。目标是将响应映射中的最大值与目标位置相匹配。

为了实现这一目标，使用从训练视频和相应的标签 $\large y$ 获得的随机图像对离线训练网络。通过最小化训练集上的后续回归损失 $\large l$ 来获得ConvNet的参数 $\large \theta$ ：

以前的方法[2,12,13,20,40,42]通常使用经典且相对浅的AlexNet [18]作为该框架中的骨干网络。在我们的工作中，我们研究了如何设计和利用更先进的ConvNet 来学习有效模型的问题，该模型可以增强跟踪的鲁棒性和准确性。

3.性能退化分析

在本节中，我们分析了图1中性能下降的根本原因。我们对网络结构的内部因素进行对比实验，并确定对性能下降最主要的因素。然后，我们提出了一套网络架构设计的实用方法，旨在减轻负面影响。

3.1分析

Quantitative analysis.定量分析

性能下降可以直接归因于网络结构，因为它是图1实验中唯一改变的设置。因此，我们首先确定这些网络架构之间的结构差异1。如表格所示。 2，除了深度和宽度之外，网络中还有其他几个不同的内部网络因素，包括步幅（STR），填充（PAD），最后一层神经元的感受野（RF）和输出特征尺寸（OFS）。注意，当网络深度增加时，RF大小相应地增加，因为网络包含具有大内核kernel大小（> 1）和步幅（> 1）的卷积，例如， Res-17和Res-33。理论上，最后一层的感受野是网络中的最大的。

表1：AlexNet，VGG 10，Inception -22和ResNet-33上的网络内部因素分析。数字①- ⑩代表不同的版本，其中修改卷积内核大小，下采样层和填充以显示趋势。由于空间有限，补充材料中给出了有关修改的详细信息。

1为了更好地显示趋势，我们将±0表示为网络的原始RF大小。+和 - 表示相对于原来的增大和减小尺寸。 Max（127）表示最大有效RF，其与示例图像的大小相同，即127x127像素。

2对于Inception网络，其RF大小位于一个范围内。这里我们只列出理论上的最大尺寸，与ResNet对齐进行比较。

表2：不同网络的内部因素：最后一层网络中的神经元的感受野（RF），步幅（STR），输出特征尺寸（OFS），填充（PAD）和宽度（W）。由于Inception在一个块中包含多个分支，因此其RF位于一个范围内。

图2：模型中学习的位置偏差的可视化

为了研究这些因素的影响，我们进行了对比研究。我们修改了AlexNet，VGG，Inception和ResNet的结构，并揭示了内部因素的影响。如表格所示。 1，当网络步幅（STR）从4或8增加到16时，性能显着下降（AlexNet和VGG上的⑩vs.③vs⑨，⑨vs.②vs.⑧Incep和ResNet相比）。这说明孪生追踪者更喜欢中级特征（步幅4或8），这些特征在物体定位方面比高级特征更精确（步幅≥16）。对于感受野（RF）的最大尺寸，最佳位于小范围内。具体来说，对于AlexNet，它的范围从8 -8（Alex⑦）到87 + 16（Alex③）像素;而对于Incep-22，它的范围从91-16（Incep.⑦）到91 + 8（In-cep.③）像素。 VGG-10和ResNet-17也表现出类似的现象。在这些情况下，最佳感受野大小覆盖输入样本图像z（大小为127像素）的约60％~80％。有趣的是，在我们的研究中，这个比例对于各种网络都很稳健，并且对它们的结构不敏感。它说明RF的大小对于Siamese框架中的特征嵌入至关重要。根本原因是RF确定用于计算特征的图像区域。大的感受野覆盖了大量图像上下文，导致提取的特征对目标对象的空间位置不敏感。相反，较小的一个可能无法捕获对象的结构信息，因此对匹配的判别较少。因此，只有特定尺寸范围内的RF允许该特征抽象出对象的特征，并且其理想尺寸与示例图像的尺寸密切相关。对于输出特征尺寸，观察到小尺寸（OFS≤3）不利于跟踪精度。这是因为小特征图缺乏对目标对象的足够空间结构描述，因此在图像相似度计算中不稳健。而且，如表格1所示。（⑤vs.⑥在AlexNet和VGG上，④vs.⑤在Incep. 和ResNet），我们观察到网络填充padding对最终性能有很大的负面影响。为了进一步研究这一点，我们进行了定性实验。

Qualitative analysis. 定性分析。

Siamese框架将中心裁剪的图像对作为训练数据传入，其中目标对象始终存在于图像中心。这种中心裁剪的数据将导致网络模型学习位置偏差，尤其是当网络包含带填充的卷积时。更具体地，如果输出单元的感受野延伸超出图像边界（受网络填充影响），则相应区域具有被预测为背景而不是目标对象的高概率。图2给出了测试阶段中这种学习偏差的可视化示例。它显示当目标对象移动到图像边界时，热图中显示低响应，其峰值不能精确指示目标的位置。当预测的目标位置在前一帧中不够精确时，这是由跟踪器漂移引起的常见情况。

3.2. Guidelines方针

根据以上分析，我们总结了四个基本方针，以减轻结构因素在网络架构中的负面影响。

1. 孪生追踪者更喜欢相对较小的网络步伐。网络步幅影响两个相邻输出特征的感受域的重叠率。由此确定了定位精度的基本程度。因此，当网络深度增加时，步幅不应相应增加。关于准确性和效率，经验上有效的选择是将步幅设定为4或8。

图3：我们提出的内部裁剪的残差单元。（a）和（b）是原始残差单位和下采样单元，而（a’）和（b’）是我们提出的单位和下采样单位。（c）和（d）是提出的宽域残差单元。灰色箭头表示便于信息传播的快捷方式路径，而蓝色方框则突出显示与原始单位的差异。字母'p'和's'分别表示填充padding大小和步幅stride。（d）中'p'和's'的设置与（c）中的相同。

2. 应根据其与样本图像大小的比率来设置输出特征的感受野。对于示例性图像，经验有效比率为60％~80％。适当的比率允许网络提取一组特征，每个特征捕获目标对象的不同空间部分的信息。这使得提取的特征在计算区域相似性时是稳健的。特别是，最大RF不应大于示例图像，否则性能将显着下降。

3. 在设计网络架构时，应将网络步幅stride，感受野和输出特征尺寸视为一个整体。这三个因素并不是彼此独立的。如果一个改变，其他人将相应改变。将它们结合在一起可以帮助设计的网络在Siamese框架中提取更多的有判别力的特征。

4. 对于完全卷积的Siamese网络，删除填充操作至关重要。填充引起的位置偏差会降低孪生跟踪器的准确性和鲁棒性，尤其是当目标物体快速移动或移动到图像边界时。

4. Deeper and Wider Siamese Networks

在本节中，我们设计了新的模块，即cropping-inside residual（CIR）单位，以消除潜在的位置偏差。然后，我们通过堆叠新的残差模块来构建更深，更宽的骨干网络。根据Guidelines可以很好地控制网络步幅和感受野大小。我们进一步将设计的网络应用于两个代表性的Siamese跟踪器，即SiamFC [2]和SiamRPN [20]。

4.1内部裁剪残差（CIR）单元CroppingInside Residual (CIR) Units

残差单元[14 residual unit]是网络架构设计中的关键模块，因为它易于优化和强大的表示。它由3个堆叠的卷积层和绕过它们的快捷连接组成，如图3（a）所示。这三层是1 x1,3 x3和1x1个卷积，其中1x1层负责减少然后恢复尺寸，使3 x3层成为具有较小输入和输出尺寸的瓶颈。此瓶颈卷积包括大小为1的零填充zero-padding，以确保在添加之前兼容的输出大小。

CIR单元。如第二节所述。 3，网络填充可能会在Siamese框架中引入位置偏差。因此，当利用它们来构建连体网络时，有必要去除残差单元中的填充padding。为此，我们通过裁剪操作增加残差单元，该特征在添加特征之后合并，如图3（a’）所示。裁剪操作会删除计算受零填充信号影响的特征。

表3：用于连体跟踪器的设计骨干网络的架构。 CIR-D单元用于'conv3'级的第一个块，CIResNet-43除外，其中CIR-D位于第四个块中。

由于填充层大小是瓶颈层中的一个，因此只会裁剪掉要素图边框上的最外层要素。这种简单的操作巧妙地消除了残差单元中的填充影响特征。

下采样CIR（CIR-D）单元。下采样残差单元是网络设计的另一个关键构建块。它用于减少特征图的空间大小，同时使特征通道的数量加倍。与残差单元类似，下采样单元还包含填充操作，如图3（b）所示。因此，我们还修改其结构以消除由填充引起的负面影响。如图3（b’）所示，我们在瓶颈层和快捷连接中将卷积步幅从2改为1。在添加操作之后再次插入裁剪以移除受填充影响的特征。最后，使用最大池来执行特征图的空间下采样。这些修改的关键思想是确保仅删除受填充影响的特征，同时保持内部块结构不变。如果我们只是在添加操作之后插入裁剪，如在所提出的CIR单元中所做的那样，在不改变下采样的位置的情况下，裁剪之后的特征将不会从输入图像中的最外面的像素接收任何信号。随着网络深度的增加，这将有效地导致更多的图像内容被移除，从而导致噪声/不完整的提取特征。

CIR-Inception和CIR-NeXt单元。我们进一步为CIR单元配备了多分支结构，使其可用于构建广泛的网络。与Inception [33]和ResNeXt [39]类似，我们通过多个特征变换扩展CIR单元，生成CIR-Inception和CIR-NeXt模块，如图3（c-d）所示。具体来说，在CIR-Inception结构中，我们在快捷连接中插入一个1 x1卷积，并通过连接而不是通过加法合并两个分支的特征。在CIR-ResNeXt中，我们将瓶颈层拆分为32个转换分支，并通过添加进行聚合。此外，对于CIR-Inception和CIR-NeXt的下采样单元，修改与CIR-D（图3（b’））中的修改相同，其中卷积步幅减小并且增加了最大池化。这两个多分支结构使单元能够学习更丰富的特征表示。

可以看出，上述CIR单元中的裁剪操作导致特征图尺寸减小，这限制了增加网络深度的能力。为了缓解这个问题，一种方法是扩大输入图像大小，另一种方法是减少网络步幅。两者都提供对输出特征大小的控制，并允许利用更深层网络的能力。注意，固有地，如果感受野的大小是固定的，则网络的深度不能无限制地增加。

4.2。 网络架构Network Architectures

通过堆叠上述CIR单元，我们构建了更深，更广的网络。结构遵循我们的设计指南。首先，我们确定网络步伐。 8的步幅用于构建3级网络，而步幅4用于构建2级网络。然后，我们堆叠CIR单位。我们控制每个阶段的单位数量和下采样单位的位置。目标是确保最终层中神经元的感受野大小位于有效范围内，即样本图像大小的60％-80％。另外，当网络深度增加时，感受野可能超过该范围。因此，我们将步幅减半，以控制感受野。

更深的网络。 我们使用CIR和CIR-D单元构建更深的网络。这些结构类似于ResNet [14]，但具有不同的网络步幅，感知字段大小和构建块。在表3中，我们提出了四个深度裁剪内部残差网络，即CIResNet-16,19,22和43.由于这些网络具有相似的结构，我们仅提供其中两个的细节：CIResNet-22和CIResNet-43。

CIResNet-22有3个阶段（步幅= 8），由22个加权卷积层组成。除了前7 x7卷积，其他都是CIR单位。在7 x7卷积之后进行裁剪操作（大小为2）以移除受填充影响的特征。前两个阶段的特征下采样是通过原始ResNet [14]的卷积和步幅2的最大化来执行的。在第三阶段，通过所提出的CIR-D单元执行下采样，该CIR-D单元位于该阶段的第一个块（总共4个块）。当特征映射大小被下采样时，滤波器的数量加倍以增加特征可辨别性。输出特征图的空间大小是5 5，每个特征从输入图像平面上的大小为93 x93像素的区域接收信号，即感受野的相应大小。

我们在构建CIResNet-43时进一步将网络深度增加到43层。由于其较大的深度，CIResNet-43仅设计为2级，以使其感受野大小保持在建议的范围内。在CIResNet-43的第二阶段，有14个块，其中第四个块具有用于特征下采样的CIR-D单元。值得注意的是，CIResNet-43几乎达到了可以在SiamFC [2]框架中实现实时速度的骨干网络的最大深度。它具有6.07G FLOP（multiplyadds），并且在GeForFC GTX 1080 GPU上的SiamFC框架中平均运行速度为35 fps。

更宽的网络。 我们分别使用CIR-Inception和CIR-NeXt单元构建两种类型的宽网络体系结构。在这里，我们仅提供一个22层结构作为示例，因为其他更宽的网络与此情况类似。正如表格中所示。如图3所示，宽网络，即CIResInception-22和CIResNeXt-22，在网络步幅，构建块数和输出特征尺寸方面具有与CIResNet-22类似的结构。但是通过多分支构建块，网络宽度分别增加了2倍和32倍。而且，由于多分支级联，在CIResInception-22中接收字段大小变得多样化（即1393），但是最大大小仍然保持在建议范围内。

4.3. Applications应用

我们将设计的更深和更广的网络应用于两个代表性的Siamese跟踪器：经典的SiamFC [2]和最近提出的SiamRPN [20]。在这两个跟踪器中，我们用我们设计的网络替换原来的浅层骨干，即5层AlexNet [18]，这是对原始框架的唯一修改。

5. Experiments实验

本节介绍了我们在多个基准数据集上更深入，更广泛的Siamese网络的结果，并与最先进的跟踪算法进行了比较。还提供了对照研究来分析所提出的网络中组件的影响。

表4：SiamFC和SiamRPN中的网络架构的性能。为了与[2,17,20]中报告的原始结果进行比较，在OTB-2013和VOT-17上评估SiamFC，而在OTB-2015和VOT-17上评估SiamRPN。速度（FPS）在GeForce GTX 1080 GPU上测量。

5.1. Experimental Details实验细节

训练。 我们的网络参数使用ImageNet [28]预先训练的权重进行初始化。在训练期间，我们冻结第一个7 x7卷积层的权重，并逐渐从后向前微调其他层。在每五个训练时期之后，我们解冻每个块中的层的权重（即，所提出的裁剪内部残余单元）。总共有50个epochs，与[2,20]相同。对于SiamFC和SiamRPN，学习率分别从减少到。重量衰减设置为，动量设置为0.9（对于SiamFC和SiamRPN）。我们在4个GPU上使用同步SGD [19]，每个GPU host 32个图像，因此mini-batch大小是每次迭代128个图像。

SiamFC的训练图像对是从ImageNet VID数据集[28]中收集的，而对于SiamRPN，它是从ImageNet VID [28]和Youtube-BB [27]生成的。每个时期中使用的图像对的数量与原始框架中的图像对数量相同[2,20]。示例图像的大小是127 x127像素，而搜索图像的大小是255 x255像素。

表5：五个跟踪基准的性能比较。红色，绿色和蓝色字体分别表示前3个跟踪器

图4：VOT-15,16和17的预期平均重叠（EAO）图。列出的方法，如EBT [41]，LDP [24]，nSAMF [22]，TCNN [25]，MLDF [36]， CFWCR [36]和CFCF [11]在VOT挑战中进行了比较[9,16,17]。

测试。 跟踪遵循与SiamFC [2]和SiamRPN [20]相同的协议。目标对象的嵌入在第一帧计算一次，然后连续匹配后续搜索图像。为了处理比例变化，SiamFC通过三个比例搜索对象，并通过线性插值更新比例，系数为0.65以提供阻尼。 SiamRPN只搜索一个比例，因为它采用了提案细化来处理规模变化。提案大小和宽高比的大幅改变的惩罚设置为0.4。

我们的网络和跟踪器使用Python 3.6和PyTorch 0.3.1实现。实验在具有GeForce GTX 1080 GPU和Xeon E5 2.4GHz CPU的PC上进行。

5.2. Comparison with Baselines

我们首先将我们更深入和更广泛的网络与SiamFC和SiamRPN框架中的基线AlexNet进行比较。正如表格中所示。 4，在OTB-13，OTB-15和VOT-17数据集上，我们提出的网络优于基线AlexNet。特别是，配备CIResIncep.-22主干的SiamFC分别在OTB-2013和VOT-17上获得了比原始AlexNet高9.5％（AUC）和14.3％（EAO）的相对改进。同时，配备CIResNet-22的SiamRPN实现了4.4％和23.3％的相对改善。这验证了我们设计的体系结构解决了图1中所示的性能下降问题。此外，它还显示了我们提出的CIR单元对于连体网络的有效性。

值得注意的是，当CIResNets的深度从16层增加到22层时，性能也相应提高。但是当增加到43层时，CIResNet不会获得进一步的提升。主要有两个原因。 1）网络步幅变为4，使得两个相邻特征的感受域之间的重叠很大。因此，它不像对象定位中具有8步幅的网络那样精确。 2）与Tab3中的其他网络相比，输出要素通道的数量减半。（即256对512通道）。整体参数大小也较小。这两个原因共同限制了CIResNet-43的性能。此外，更广泛的网络也为孪生追踪者带来了改善。由于引入了多分支结构和大量模型参数，CIResIncep.-22在OTB数据集上的这些网络中实现了最佳结果。虽然CIResNeXt-22包含更多的转换分支，但其模型尺寸较小（参见表3）。因此，其性能不如CIResIncep.-22和CIResNet-22。

5.3. Comparison to State-of-the-Art Trackers

我们进一步将我们增强的Siamese跟踪器与最先进的跟踪算法进行比较。我们选择一些目前性能最好的跟踪器，以及其他最近的孪生跟踪器进行比较。我们的增强型跟踪器采用性能最佳的CIResNet-22作为主干，并表示为SiamFC +和SiamRPN +。比较在五个数据集上进行：OTB-2013，OTB-2015，VOT15，VOT16和VOT17。

OTB基准。 对OTB-2013和OTB-2015的评估遵循[37,38]中提出的标准协议。两个度量，即成功曲线的精度和曲线下面积（AUC），用于对跟踪器进行排名。结果在表5中给出。它表明我们的SiamFC和SiamRPN +超越了其他孪生追踪算法，例如最近提出的StructSiam [40]和TriSiam [7]。这证明了我们设计的架构的有效性。此外，与其他最先进的算法（如ECO-HC [4]和CFNet [35]）相比，我们的跟踪器在精度和速度方面仍然优越。

表6：SiamFC上残差单元与CIR单元的对比。

表7：SiamFC中使用的不同下采样设置的对照。请参阅正文以获得解释。

表8：网络内部因素分析。

VOT基准。 对VOT基准的评估由官方工具包[17]执行，其中准确度（A），鲁棒性（R）和预期平均重叠（EAO）用作度量。

VOT-15。我们将SiamFC +和SiamRPN +与最先进的跟踪器进行了对比2015年投票挑战。结果报告在图4（上图）中。我们的SiamRPN +取得了最好的结果，略好于MDNet [26]。此外，SiamRPN +运行速度比MDNet快得多，MDNet运行速度为1 fps。与基线（即SiamFC和SiamRPN）相比，我们更深入的网络增强跟踪器分别获得8.8％和8.9％的相对改进。

VOT-16。 VOT-16中的视频序列与VOT-15中的视频序列相同，但是真实标签边界框被精确地重新注释。我们将我们的跟踪器与挑战中排名前10的跟踪器进行比较。如图4（中）所示，SiamRPN +在EAO方面排名第一。它以3.9的分数超过CCOT [6]，2016年投票挑战的冠军，以及最近的VITAL [31]增加4.7分。此外，SiamFC +也在基线上大幅提升，即EAO为6.0。

VOT-17。图4（下图）显示了在2017年挑战中与跟踪器的比较。我们的SiamRPN +实现了3.01的EAO，略逊于性能最佳的LSART跟踪器[32]。但是，SiamRPN +运行速度为150 fps，比LSART快150。与实时跟踪器相比，SiamRPN +在准确性和稳健性方面排名第一。令人惊讶的是，即使是简单的SiamFC +也以2.2分超过了2017年CSRDCF ++ [23]的实时跟踪冠军。这进一步验证了我们为Siamese跟踪器设计的更深层网络架构的有效性。

5.4. Ablation Study对比研究

在表6和8中，我们评估了我们设计的网络中不同因素对VOT-16数据集的影响。

有没有CIR单位。 裁剪内部残差单元是我们网络架构中的关键组件。为了评估其影响，我们将其替换为网络中的原始残差单元[14]。如表6所示。这种替换会导致显着的性能下降在CIResIncep.- 22上，从0.301到0.213的8.8下降。它清楚地验证了CIR单元中填充消除的重要性，这基本上消除了学习中的位置偏差。图2中CIResNet-22的预测热图也证明了这一点。

与没有CIR-D单位。 我们比较网络中的三种不同的下采样设置：1）直接使用原始下采样残差单元，即图3（b），2）在下采样残差单元中加入后插入裁剪操作，以及3）提出的CIR-D单元，即图3（b’）。表7给出了结果。它表明前两个设置具有可比性，但不如第三个设置。这表明我们的CIR-D单元有效。特别地，在第二设置中引入的裁剪不会带来改进，因为它移除了部分内部特征（即，不是受填充影响的特征），导致原始输入的信息丢失。

感受野，特征大小和步幅的影响。我们根据这些因素的大小来展示它们对最终性能的影响。具体来说，我们改变最后一个裁剪内部残差块中的卷积核大小，以改变感受野和输出特征的大小。以CIResNet-22为例，我们将内核大小从1改为6，这导致特征大小从7变为2.要改变网络步幅，我们用网络中的CIR-D单元替换一个CIR单元。表8显示了结果。我们可以观察到，当RF变大时，性能显着下降（即，从表8中的④到①）。根本原因是大RF覆盖了大量图像上下文，导致提取的特征对目标对象的空间位置不敏感。对于输出特征，观察到小尺寸（OFS ≤ 3）不会有益于准确性。此外，一个大的网络步幅，即16，不像中等大小的那样精确，即8.这些结果与我们在本文开头提出的分析和Guidelines相呼应。

6. Discussions

网络架构。 本文所述的问题可以看作是网络架构设计的一个子任务，它主要以两种方式发展：使网络更深[29,14]或更宽[33,39]。为了使网络更加深入，ResNets [14]引入了一种恒等映射，使训练超深度网络成为可能，同时带来显着的性能提升。为了使网络更广泛，GooLeNet [33]及其后代使用Inception模块来引入多个特征转换，从而增强模型表示能力。

我们的工作利用这些深入而广泛的网络架构，并对其进行修改以有效地适应孪生网络。介绍了Siamese骨干设计的两个关键原则。一种是删除网络架构内的填充操作padding，另一种是控制感知字段大小和网络步幅。它们都显示出对跟踪性能有重大影响。此外，这是第一部系统研究如何在视觉跟踪中设计健壮的骨干网络的工作。

孪生追踪算法。 孪生跟踪器遵循相似性匹配策略的跟踪。开创性的工作是SINT [34]和SiamFC [2]，它们各自使用Siamese网络来离线训练目标目标和候选图像块之间的相似性度量。已经提出了大量的后续工作[7,12,13,20,40]，它们分为两个阵营。一个人提高了匹配精度与高级语义信息或本地化模型[13,15,40,20]。另一个通过在线更新增强了离线Siamese模型[12,35,42]。在这些改进的跟踪器中，SiamRPN [20]是一个代表性的跟踪器。它引入了区域建议网络，包括分类分支和边界框回归分支，从图像背景中定位目标对象，并显示跟踪准确性和速度的巨大潜力。

最近还有一项研究如何利用深层网络进行视觉跟踪[3]。但它从数据增强和特征融合的方向解决了问题。不同的是，我们的工作研究如何设计网络架构，并成功地为孪生跟踪器配备更深更宽的骨干。