【论文翻译】ROLO：Spatially Supervised Recurrent Convolutional Neural Networks for Visual Object Tracking

最新推荐文章于 2024-08-13 08:24:11 发布

kendyChina

最新推荐文章于 2024-08-13 08:24:11 发布

阅读量1.4k

点赞数 2

CC 4.0 BY-SA版权

分类专栏：深度学习跟踪算法文章标签：算法计算机视觉目标跟踪

原文链接：https://arxiv.org/pdf/1607.05781.pdf

深度学习同时被 2 个专栏收录

18 篇文章

订阅专栏

跟踪算法

3 篇文章

订阅专栏

本文提出了一种名为ROLO的新方法，它是一种基于空间监督的循环卷积神经网络，用于视觉对象跟踪。ROLO利用LSTM的时空回归能力，结合YOLO提供的初步位置信息，实现准确且高效的跟踪。实验表明，ROLO在保持低计算复杂性的同时，能有效处理遮挡和快速运动，优于许多最新跟踪方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Spatially Supervised Recurrent Convolutional Neural
Networks for Visual Object Tracking

Guanghan Ning∗, Zhi Zhang, Chen Huang, Zhihai He
Department of Electrical and Computer Engineering
University of Missouri
Columbia, MO 65201
{gnxr9, zzbhf, chenhuang, hezhi}@mail.missouri.edu
Xiaobo Ren, Haohong Wang
TCL Research America
{renxiaobo, haohong.wang}@tcl.com

论文： https://arxiv.org/abs/1607.05781
代码： https://github.com/Guanghan/ROLO

Abstract
在本文中，我们开发了一种用于视觉对象跟踪（visual object tracking）的基于空间监督（spatially supervised）的循环卷积神经网络的新方法。我们的循环卷积网络利用了历史的位置信息以及由深度神经网络学到的独特视觉特征（distinctive visual features）。受最近基于 Bounding Box 的 Regression 方法的启发，我们研究了时域（temporal domain）中的长短期记忆（LSTM）的 Regression 能力，并提出了将卷积网络产生的 high-level visual features 与 region information 连接起来的方法。与将二分类用于区域候选的现有基于深度学习的跟踪器不同，我们使用 Regression 来直接预测卷积层和循环单元处的跟踪位置。 我们广泛的实验结果以及与具有挑战性的基准视频跟踪数据集上的最新跟踪方法进行的性能比较表明，我们的跟踪器在保持较低计算成本的同时更加准确和强大。对于大多数测试视频序列，我们的方法可实现最佳的跟踪性能，通常大大超过次优的方法。

1 Introduction

由于目标变形（target deformations），照明变化（illumination
variations），比例变化（scale changes），快速和突然运动（fast and abrupt motion），部分遮挡（partial occlusions），运动模糊（motion blur），物体变形（object deformation）和背景混乱（background clutters），视觉跟踪在计算机视觉中是一项具有挑战性的任务。用于对象检测的方法[6，21]的最新进展已导致开发了许多基于检测跟踪（tracking-by-detection）的方法[23，8，13]。这些现代跟踪器通常是由几个单独的组件组成的复杂系统。根据[24]，feature extractor 是跟踪器的最重要组件。使用适当的 feature 可以大大提高跟踪性能。为了处理由上述因素引起的跟踪失败，现有的基于外观的跟踪方法[3、15、10]采用生成模型或判别模型将前景与背景以及不同的同时出现的对象分开。
一个主要的缺点是它们依赖于低级的手工特征，这些功能无法捕获目标的语义信息，对明显的外观变化不可靠，并且仅具有有限的辨别力。因此，越来越多的跟踪器正在使用通过深度卷积神经网络学习的图像特征[22、13、25]。 我们认识到，现有方法主要侧重于提高深度特征相对于手工特征的性能和鲁棒性。 如何将深度神经网络的分析扩展到时空域来进行视觉对象跟踪的研究尚未充分展开。

在这项工作中，我们建议开发一种基于递归卷积神经网络（recurrent convolutional
neural networks）的新视觉跟踪方法，该方法将神经网络的学习和分析扩展到时空域。我们方法背后的主要动机是，通过从历史视觉语义和跟踪建议中学习，通常可以有效地修复跟踪失败的情况。与仅基于位置历史的基于卡尔曼滤波器（Kalman filters）或相关时间预测（related temporal prediction）方法的现有跟踪方法相比，我们的循环卷积模型具有双重深度（doubly deep），因为它可以检查位置的历史以及过去帧的鲁棒的视觉特征。

最近有两篇论文[14，5]与这项工作密切相关。他们解决了使用递归神经网络（RNN）进行对象跟踪的类似问题，但他们专注于人工生成的序列和合成数据。尚未实际解决现实视频中对象跟踪的特定挑战。他们使用传统的RNN作为关注方案来在空间上瞥见不同区域，并依赖于本地区域的附加二分类。相反地，我们直接回归坐标或热图，而不是使用子区域分类器。我们将LSTM用于单一评估（single evaluation）的端到端（end-to-end）时空回归（spatio-temporal regression），这被证明更加有效。我们广泛的实验结果以及与具有挑战性的基准跟踪数据集上的最新跟踪方法进行的性能比较表明，我们的跟踪器在保持较低计算成本的同时更加准确和强大。对于大多数测试序列，我们的方法可实现最佳跟踪性能，通常大幅度超越次优的方法。

这项工作的主要贡献包括：（1）我们引入了一种模块化的神经网络，该网络可以使用基于梯度的学习方法进行端到端的训练。以对象跟踪为例，我们探索了不同的设置，并提供了对模型设计和训练的深刻见解，以及LSTM的 high-level visual feature 的解释和回归功能。（2）与现有的基于ConvNet的跟踪器相比，我们提出的框架将神经网络分析扩展到时空域，以进行有效的视觉对象跟踪。（3）我们的网络既准确又高效，并且复杂度低。

2 System Overview

在这里插入图片描述

跟踪过程的概述如图1所示。我们选择YOLO来收集丰富而强大的 visual features 以及初步的位置推断。因为LSTM在空间上很深并且适合于序列处理，我们将在下一阶段使用LSTM。所提出的模型是一个深层神经网络，它将原始视频帧作为输入，并返回每个帧中正在跟踪的对象的边界框的坐标。数学上，提出的模型将完整的跟踪概率分解为
$p\left(B_{1}, B_{2}, \ldots, B_{T} \mid X_{1}, X_{2}, \ldots, X_{T}\right)=\prod_{t=1}^{T} p\left(B_{t} \mid B_{<t}, X_{\leq t}\right)$
其中 $B_t$ 和 $X_t$ 分别是对象在时间t处的位置和输入帧的位置。 $B < t$ 是时间 t 之前所有先前位置的历史， $X \leq t$ 是直到时间 t 的输入帧的历史。在以下部分中，我们将更详细地描述所提议系统的主要组件。

2.1 Long Short Term Memory (LSTM)
传统的RNN由于后向传播误差随时间膨胀或衰减而无法访问远处的 context ，这被称为消失梯度问题（vanishing gradient problem）[11]。相比之下，LSTM RNN [12]克服了这个问题，并且能够对自学上下文信息进行建模。 LSTM的主要创新之处在于它的存储单元 $c_t$ ，它实质上是状态信息的累加器。该单元可通过几个参数化的控制门进行访问，写入和清除。每次有新的输入时，如果输入门被激活，则其信息将累积到单元中。此外，如果遗忘门 $f_t$ 开启，则过去的单元状态 $c_{t-1}$ 在此过程中可能被“遗忘”。通过输出门 $o_t$ 进一步控制最新单元输出 $c_t$ 是否将被传播到最终状态 $h_t$ 。在我们的系统中，我们使用LSTM单位作为跟踪模块。与标准RNN不同，LSTM体系结构使用 memory cells 来存储和输出信息，从而使其能够更好地发现久远的时间关系。令 $σ=(1 + e -x)^{-1}$ 为非线性 Sigmoid，它将实数值输入压缩到 $[0 ， 1]$ 范围，令 $\phi(x)=\frac{e^{x}-e^{-x}}{e^{x}+e^{-x}}$ ，在给定输入 $x_t$ ， $h_{t-1}$ 和 $c_{t-1}$ 的情况下，时间戳为 t 的LSTM更新公式为：
$\begin{aligned} i_{t} &=\sigma\left(W_{x i} x_{t}+W_{h i} h_{t-1}+b_{i}\right) \\ f_{t} &=\sigma\left(W_{x f} x_{t}+W_{h f} h_{t-1}+b_{f}\right) \\ o_{t} &=\sigma\left(W_{x o} x_{t}+W_{h o} h_{t-1}+b_{o}\right) \\ g_{t} &=\sigma\left(W_{x c} x_{t}+W_{h c} h_{t-1}+b_{c}\right) \\ h_{t} &=o_{t} \odot \phi\left(c_{t}\right) \end{aligned}$

2.2 Object Detection Using YOLO

尽管准确性在视觉跟踪系统中很重要，但速度是实际中要考虑的另一个重要因素。使用ConvNets的现有跟踪方法在计算上已经很昂贵。将其应用于视觉对象跟踪的每个帧将导致过高的计算复杂性。最近，在[20]中提出了一种新的目标检测方法。他们将目标检测框架化为空间上分离的 Bounding Box 的回归问题和其对应类别的概率问题。基准YOLO模型以45 fps实时处理图像。较小的网络Fast YOLO以155 fps的速度进行处理，同时仍具有SOTA的目标检测性能。在一帧中，YOLO可以输出多个检测结果。在将正确的检测分配给跟踪目标时，我们采用分配成本矩阵（assignment cost matrix），该矩阵的值是当前检测框与其近期经过验证的检测框的平均值之间的交并比（IOU）距离。但是，第一帧的检测结果由目标检测与 ground truth 之间的IOU距离确定。另外，设置最小的IOU阈值，如果目标检测和 target 的重叠小于 $IOU_{min}$ ，则拒绝分配该目标。

3 Our Proposed System

受最近基于回归的对象检测器成功的启发，我们提出了一种新的神经网络系统，以有效地（1）处理时空信息和（2）推断区域位置。我们的方法使用递归神经网络将YOLO深层卷积神经网络扩展到时空域。因此，我们通过ROLO（recurrent YOLO）来引用我们的方法。我们提出的ROLO的体系结构如图2所示。具体来说，（1）我们使用YOLO来收集丰富而强大的视觉特征以及初步的位置推论；我们将在下一阶段使用LSTM，因为LSTM在空间上很深并且适合于序列处理。（2）受YOLO回归位置推断的启发，我们研究了LSTM的回归能力，并提出将卷积网络产生的 high-level visual features 与 region information 相连接。 ROLO模型的端到端训练分为三个阶段：用于特征学习的卷积层的预训练阶段，用于目标建议的传统YOLO训练阶段以及用于对象跟踪的LSTM训练阶段。
在这里插入图片描述

3.1 Network Training of the Detection Module

我们首先使用传统的CNN对权重进行预训练，以进行一般特征学习。卷积神经网络将视频帧作为其输入，并生成整个图像的特征图。通过使用1000类ImageNet数据学习卷积权重，从而使网络对几乎任意的视觉对象都有一个全面的了解。在预训练期间，第一个全连接层的输出是大小为4096的特征向量，是 mid-level
visual features 的密集表示。从理论上讲，可以将特征向量输入任何分类工具（例如SVM或CNN）中，并通过适当的训练获得良好的分类结果。

一旦我们具有能够生成视觉特征的预先训练的权重，我们就将YOLO架构用作检测模块。在卷积层之上，YOLO采用全连接层将特征表示回归到区域预测中。这些预测被编码为 S×S×(B×5+C) 的张量。它表示将图像分分割为S×S块。每个分割块预测的B个边界框，每个边界框由5个位置参数（包括x，y，w，h及其置信度c）表示。还预测了长度为C的 one-hot 特征向量，该向量指示每个边界框的类标签。在我们的框架中，我们遵循YOLO架构，并设置S = 7，B = 2，C = 20。每个边界框最初由6个预测组成：x，y，w，h，类别标签和置信度，但是我们在视觉跟踪中取消了类别标签和置信度，因为评估仅包含位置。
$B_t = (0, x, y, w, h, 0)$
其中 $(x ， y)$ 分别表示边界框中心相对于图像的宽度和高度的坐标。，边框的宽度和高度也与图像的宽度和高度有关，因此， $(x ， y ， w ， h) \in [0 ， 1]$ ，并且当它们与4096维的 visual features 连接在一起时，回归将更容易进行，这将被输入到跟踪模块中。

3.2 Network Training of the Tracking Module

最后，我们添加了LSTM RNN以训练跟踪模块。有两个数据流流入LSTM，即来自卷积层的特征向量和来自全连接层的检测信息 $B_{t,i}$ 。因此，在每个时间步长t，我们提取长度为4096的特征向量。我们将这些向量称为 $X_t$ 。除了 $X_t$ 和 $B_{t,i}$ ，LSTM的另一个输入是来自最后一个时间步 $S_{t-1}$ 的状态输出。在我们的目标模块中，我们使用均方误差（MSE）进行训练：
$L_{M S E}=\frac{1}{n} \sum_{i=1}^{n}\left\|B_{\text {target}}-B_{\text {pred}}\right\|_{2}^{2}$
其中n是batch中训练样本的数量， $y_{pred}$ 是模型的预测， $y_{target}$ 是目标 ground truth 值，|| · || 是平方欧几里得范数。我们使用 Adam 方法进行随机优化。

3.3 Alternative Heatmap

直接回归坐标是高度非线性的，因此我们很难去解析映射关系。为了知道在跟踪过程中LSTM实际发生了什么，尤其是在遮挡条件下发生了什么， 我们可以选择将ROLO预测位置转换为长度为1024的特征向量，可以将其转换为32 x 32的热图。在将其输入LSTM之前，我们将其与4096维的 visual feature 串联在一起。热图的优点是它可以使您在多个空间位置上看到对应的置信度，并且我们可以可视化中间结果。热图不仅充当输入特征，而且还可以扭曲图像中的预测位置。在训练过程中，我们通过将值1分配给相应的区域，值0分配给其他区域，来将区域信息从检测框传递到热图。具体来说，将检测框转换为相对于32 x 32热图，然后将其展平以与4096维 visual feature 连接起来作为LSTM输入。令 $H_{target}$ 表示 ground truth 的热图矢量， $H_{pred}$ 表示在LSTM输出中预测的热图。目标函数定义为：
$L_{M S E}=\frac{1}{n} \sum_{i=1}^{n}\left\|H_{\text {target}}-H_{\text {pred}}\right\|_{2}^{2}$

3.4 Spatio-temporal Regression and Spatial Supervision by Region Proposals

在我们的发现中，LSTM不仅能够进行序列处理，而且能够有效地进行时空回归。这种回归有两个方面：（1）在一个单位内的回归，例如 visual feature 与连接区域表示之间的回归。当LSTM连接为一个单元时，LSTM能够从 visual feature 中推断区域位置。（2）对序列单位的回归，例如在一连串帧之间的经过连接的特征。 LSTM能够在下一帧中将特征序列回归到预测的特征向量中。在回归过程中，LSTM会自动利用视觉特征和区域位置/热图表示的时空信息。

在YOLO的结构中，全连接层的回归会产生 object proposals。它们充当跟踪模块的软空间监视。监督在两个方面有所帮助：（1）当LSTM解释 high-level visual features 时，初步的位置推断有助于将特征回归到某些视觉元素/提示的位置。受空间监督的回归则充当在线外观模型。（2）暂时地，LSTM学习序列单元以将位置预测限制在空间范围内。

4 Experimental Results

我们的系统使用Tensorflow在Python中实现，并且分别针对YOLO / LSTM以20fps / 60fps的速度运行，并具有3.4GHz Intel Core i7-3770和NVIDIA TITAN X GPU的八个内核。为了帮助复现我们的实验，我们在项目页面上提供了跟踪器的源代码，预先训练的模型以及结果。

在这里插入图片描述
我们进行了广泛的经验评估，将ROLO与10个不同的跟踪器在30个具有挑战性且可公开获得的视频序列集上的性能进行了比较。具体来说，我们将我们的结果与获得基准[26]评估的最佳性能的前9个跟踪器进行了比较，其中包括STRUCK [9]，CXT [3]，OAB [7]，CSK [10]，VTD [16]， VTS [17]，LSK [18]，TLD [15]，RS [2]。请注意，CNN-SVM [13]是另一种基于CNN表示的跟踪算法，作为采用深度学习的跟踪器的基线。我们还使用SORT的修改版[1]来评估带有卡尔曼滤波器的YOLO的跟踪性能。作为通用对象检测器，YOLO可以被训练为识别任意对象。由于ROLO的性能取决于YOLO部分，因此我们选择默认的YOLO模型进行公平比较。该模型在ImageNet数据集上进行了预训练，并在VOC数据集上进行了微调，能够检测20类物体。我们从基准中选择了30个视频的子集，其中目标属于这些类别。表1中总结了此评估中考虑的视频序列。根据基准方法的实验结果，OTB-30的平均难度要比完整基准的难度高。
在这里插入图片描述

4.1 Qualitative Results

在这里插入图片描述

由于训练数据非常有限，因此我们首先测试神经网络的泛化能力。在图4中，该模型使用OTB-30进行训练，但在模型没见过的视频剪辑上进行了测试。如图4（a）（b）所示，这些类别的 ground truth 是面孔，不属于预训练的YOLO类别。在这种情况下，YOLO会检测到整个人，因此ROLO会进行相应的跟踪。请注意，当由于运动模糊而导致YOLO检测出现缺陷时，ROLO跟踪结果会在时空思考下保持稳定。在图4（c）中，对象类确实属于预训练的YOLO类，但是在任何训练序列中都看不到。在这种情况下，ROLO仍会跟踪它。证明：（1）跟踪被推广到没见过的物体；（2）LSTM能够解释 visual feature；（3）LSTM能够在空间监督下将视觉特征回归为区域推断。在解释视觉特征时，在[4]中指出，在这些 high-level visual features 中包含令人惊讶的丰富信息，因为可以从更高网络层的激活中重建图像的颜色和粗糙轮廓。我们发现ROLO中的LSTM单元可以解释视觉特征并将其回归到位置预测中，其方式类似于YOLO中的全连接层。此外，考虑到时空历史，它可以提供更稳定的位置。与传统的时间校正方法（例如Kalman滤波器）仅基于以前的位置进行预测相比，ROLO还利用了视觉提示的历史记录。

ROLO中的位置历史充当空间监督，这有两个方面：（1）当LSTM解释 high-level visual features 时，初步的位置推断有助于将特征回归到某些视觉元素/提示的位置。空间监督的回归在时间上充当在线外观模型（2）LSTM学习序列单元以将位置预测限制在空间范围内。

4.2 Handling Occlusions

在这里插入图片描述

图5的定性结果表明，ROLO在看不见的帧中成功跟踪了遮挡挑战下的物体。请注意，在第776-783帧期间，即使检测模块发生故障，ROLO仍会继续跟踪车辆。我们还使用热图而不是位置坐标来训练替代的ROLO模型，以便在遮挡条件下分析LSTM。该模型通过OTB-30的1/3帧进行离线训练，并在未经过训练的视频上进行了测试。如图6所示，ROLO以接近完全的遮挡跟踪对象。即使两个相似的目标同时出现在该视频中，当检测模块固有地向LSTM单元提供空间限制时，ROLO也会跟踪正确的目标。请注意，在第47-60帧之间，YOLO检测失败，但ROLO不会丢失跟踪。 当仍未发现类似目标时，如果没有检测到，则热图会涉及较小的噪声。但是，因为ROLO充分利用了自己的位置历史以及视觉特征，即使完全被遮挡，ROLO也对真实目标更有信心。事实证明，ROLO是有效的，其原因如下：（1）来自convNets的高级视觉特征的表示能力；（2）LSTM的特征解释能力，因此具有在空间上监督的视觉对象检测能力通过位置或热图矢量，（3）具有时空信息的有效回归能力。

4.3 Quantitative Results

在这里插入图片描述
我们首先使用OTB-30的22个视频训练LSTM模型，然后测试其余8个视频。 OPE结果如图7（a）所示。 它再次证明了LSTM回归的通用能力，但也表明当使用 limited dynamics 进行训练时，该模型的执行效果不是很好。

为了了解以相似的 dynamics 进行训练是否可以改善性能，我们训练了带有1/3帧及其OTB-30 ground truth 标签的第二个LSTM模型，并对整个序列帧进行了测试。 OPE结果显示在7（b）中。我们发现，一旦在具有相似 dynamics 特性的辅助框架上进行训练，ROLO在测试序列上的表现将更好。此属性使ROLO在监视环境中特别有用，在监视环境中，可以使用预先捕获的数据对模型进行脱机训练。考虑到此属性，我们尝试增加训练框架，以期获得改善的性能。我们用1/3 ground truth 训练了第三个LSTM模型，但是使用了所有序列帧。图7（c）中的结果表明，即使不添加 ground truth 框，当使用更多帧训练 dynamics 知识时，性能也可以显着提高。它还表明，对于跟踪而言，基准中的训练数据非常有限[19]。其SRE和TRE结果如图8所示，用于鲁棒性评估。表1中说明了每个视频序列的AOS。我们的方法在大多数测试视频序列中均达到了最佳性能，通常在很大程度上优于次优视频。

4.4 Parameter Sensitivity and Tracker Analysis

CNN-SVM是CNN-based的跟踪方法，具有强大的功能，但缺少处理严重遮挡的时间信息。带卡尔曼滤波器的YOLO在不了解实际环境的情况下考虑了位置的时间演变。由于动作快，遮挡以及因此有时检测不佳，带有卡尔曼滤波的YOLO的表现较差，原因是缺乏对视觉环境的了解。相比之下，使用LSTM ROLO在序列上进行合成，可以生成强大的图像特征及其柔和的空间监控。 ROLO在空间上很深，因为它能够解释视觉特征并自行检测物体，可以通过将位置或热图连接到视觉特征来对空间进行监督。 通过探索时间特征及其可能的位置，它在时间上也很深。步长表示每次考虑用于LSTM预测的先前帧数。在先前的实验中，我们使用6作为步数。为了阐明LSTM的序列步骤如何影响整体性能和运行时间，我们以不同的步长重复第二次实验，并在图9中说明结果。在我们的实验中，我们还尝试了视觉特征的 dropout，训练期间 detection boxes 的 random offset 旨在进行更可靠的跟踪，并为目标函数提供辅助成本以增强对视觉特征的检测，但这些结果均不如所示。

在这里插入图片描述

5 Conclusion and Future Work

在本文中，我们已经成功开发了一种用于视觉对象跟踪的基于空间监督的循环卷积神经网络新方法。我们提出的ROLO方法将深度神经网络学习和分析扩展到时空域。我们还研究了LSTM的高级视觉功能的解释和回归功能。我们提出的跟踪器在空间和时间上都很深，可以有效地解决主要是遮挡和严重运动模糊等问题。我们广泛的实验结果以及与具有挑战性的基准跟踪数据集上的最新跟踪方法进行的性能比较表明，我们的跟踪器在保持较低计算成本的同时更加准确和强大。对于大多数测试视频序列，我们的方法可实现最佳的跟踪性能，通常大幅度超越次优方法。

在未来的研究中，我们将研究两个堆叠的LSTM，以分别优化热图和位置上的 cost 函数，这可能为进一步的性能改进提供更多空间。我们将专注于有效的在线学习，以保持高性能，同时以实时性能跟踪看不见的动态中的对象。我们还将探索数据关联技术（data
association techniques），以使ROLO能够达到多目标跟踪的目的。

References

[1] Alex Bewley, Zonguan Ge, Lionel Ott, Fabio Ramos, and Ben Upcroft. Simple online and realtime tracking.
arXiv:1602.00763, 2016.
[2] Robert T Collins, Yanxi Liu, and Marius Leordeanu. Online selection of discriminative tracking features.
Pattern Analysis and Machine Intelligence, IEEE Transactions on, 27(10):1631–1643, 2005.
[3] Thang Ba Dinh, Nam Vo, and Gérard Medioni. Context tracker: Exploring supporters and distracters in
unconstrained environments. In CVPR, pages 1177–1184. IEEE, 2011.
[4] Alexey Dosovitskiy and Thomas Brox. Inverting visual representations with convolutional networks.
CVPR, 2016.
[5] Quan Gan, Qipeng Guo, Zheng Zhang, and Kyunghyun Cho. First step toward model-free, anonymous
object tracking with recurrent neural networks. arXiv preprint arXiv:1511.06425, 2015.
[6] Ross Girshick. Fast r-cnn. In ICCV, pages 1440–1448, 2015.
[7] Helmut Grabner, Michael Grabner, and Horst Bischof. Real-time tracking via on-line boosting. In BMVC,
volume 1, page 6, 2006.
[8] David Hall and Pietro Perona. From categories to individuals in real time–a unified boosting approach. In
CVPR, pages 176–183, 2014.
[9] S. Hare, S. Golodetz, A. Saffari, V. Vineet, M. M. Cheng, S. Hicks, and P. Torr. Struck: Structured output
tracking with kernels. IEEE Transactions on Pattern Analysis and Machine Intelligence, PP(99):1–1, 2015.
[10] Joao F Henriques, Rui Caseiro, Pedro Martins, and Jorge Batista. Exploiting the circulant structure of
tracking-by-detection with kernels. In ECCV, pages 702–715. Springer, 2012.
[11] Sepp Hochreiter, Yoshua Bengio, Paolo Frasconi, and Jürgen Schmidhuber. Gradient flow in recurrent
nets: the difficulty of learning long-term dependencies, 2001.
[12] Sepp Hochreiter and Jürgen Schmidhuber. Long short-term memory. Neural computation, 9(8):1735–1780,
1997.
[13] Seunghoon Hong, Tackgeun You, Suha Kwak, and Bohyung Han. Online tracking by learning discriminative saliency map with convolutional neural network. In ICML, 2015.
[14] Samira Ebrahimi Kahou, Vincent Michalski, and Roland Memisevic. Ratm: Recurrent attentive tracking
model. arXiv preprint arXiv:1510.08660, 2015.
[15] Zdenek Kalal, Jiri Matas, and Krystian Mikolajczyk. Pn learning: Bootstrapping binary classifiers by
structural constraints. In CVPR, pages 49–56. IEEE, 2010.
[16] Junseok Kwon and Kyoung Mu Lee. Visual tracking decomposition. In CVPR, pages 1269–1276. IEEE,
2010.
[17] Junseok Kwon and Kyoung Mu Lee. Tracking by sampling trackers. In ICCV, pages 1195–1202. IEEE,
2011.
[18] Baiyang Liu, Junzhou Huang, Lin Yang, and Casimir Kulikowsk. Robust tracking using local sparse
appearance model and k-selection. In CVPR, pages 1313–1320. IEEE, 2011.
[19] Hyeonseob Nam and Bohyung Han. Learning multi-domain convolutional neural networks for visual
tracking. arXiv preprint arXiv:1510.07945, 2015.
[20] Joseph Redmon, Santosh Divvala, Ross Girshick, and Ali Farhadi. You only look once: Unified, real-time
object detection. CVPR, 2016.
[21] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster r-cnn: Towards real-time object detection
with region proposal networks. In NIPS, pages 91–99, 2015.
[22] Lijun Wang, Wanli Ouyang, Xiaogang Wang, and Huchuan Lu. Visual tracking with fully convolutional
networks. In ICCV, December 2015.
[23] Lijun Wang, Wanli Ouyang, Xiaogang Wang, and Huchuan Lu. Stct: Sequentially training convolutional
networks for visual tracking. CVPR, 2016.
[24] Naiyan Wang, Jianping Shi, Dit-Yan Yeung, and Jiaya Jia. Understanding and diagnosing visual tracking
systems. In ICCV, pages 3101–3109, 2015.
[25] Naiyan Wang and Dit-Yan Yeung. Learning a deep compact image representation for visual tracking. In
NIPS, pages 809–817, 2013.
[26] Yi Wu, Jongwoo Lim, and Ming-Hsuan Yang. Object tracking benchmark. Pattern Analysis and Machine
Intelligence, IEEE Transactions on, 37(9):1834–1848, 2015.