论文：ECO: Efficient Convolution Operators for Tracking（2016年11月）

最新推荐文章于 2023-10-25 14:36:48 发布

_123杨子江

最新推荐文章于 2023-10-25 14:36:48 发布

阅读量499

点赞数 1

CC 4.0 BY-SA版权

分类专栏：目标检测追踪相关图像处理

原文链接：https://blog.csdn.net/zixiximm/article/details/54378397

图像处理同时被 2 个专栏收录

62 篇文章

订阅专栏

目标检测追踪相关

48 篇文章

订阅专栏

MD个人主页：https://martin-danelljan.github.io/

引用自博客：ECO–目标跟踪–CVPR2017–Martin Danelljan的大作

1、ECO跟踪算法Github下载地址：
作者发布的Matlab implementation of the Efficient Convolution Operator (ECO) tracker.
https://github.com/martin-danelljan/ECO

2、作者发布的Pytorch版本，同时包括ECO和ATOM两个算法。
https://github.com/visionml/pytracking

3、作者的新算法most recent tracker ATOM.论文下载：
https://arxiv.org/pdf/1811.07628.pdf

4、ECO(Efficient Convolution Operators for Tracking)中文解析：
https://blog.csdn.net/HUAJUN998/article/details/79802907

5、网友实现的C++版本的ECO github地址：
https://github.com/HJCYFY/ECO.git

Visual Tracking领域大牛（至少我认为是这个领域的大牛）Martin Danelljan又出新作。继C-COT之后又一刷新纪录的作品。不管是从结果还是速度上都有提升，尤其是速度提升明显。用传统特征HOG+CN的版本速度有60+FPS，用CNN+HOG+CN的速度有8FPS，从跟踪效果来看，个人认为可以算一个出色的作品。

Motivation

这篇文章的出发点其实就是提高时间效率和空间效率。近一两年来，效果好的很多方法都是基于相关滤波来做的。最早用到相关滤波的是Bolme等人在2010年CVPR的MOSSE，速度非常快。在MOSSE之后，像KCF，DSST，CN，SRDCF，C-COT等等都是在相关滤波的基础上做的。随着特征维度越来越高，算法越来越复杂，跟踪效果虽然是在逐步提升，但是都是以牺牲跟踪速度为代价的。（Martin Danelljan在相关滤波这一系列方法上可谓是如鱼得水啊，有非常多的成果，非常多！）

那么Martin Danelljan（后面叫他DM好了）在相关滤波做跟踪的算法上积累了丰富的经验之后，分析了速度降低的三个最重要的因素：

(1) Model Size（模型大小）

也可以理解为特征的复杂度。比如说C-COT用了CNN+HOG+CN这样非常全面的特征组合，它每次更新模型的时候，需要更新的参数有800000个，速度当然很慢。实际上跟踪问题中的训练样本非常少，这么高的维度除了速度慢，还会引起过拟合（over-fitting）。

(2) Training Set Size（训练集大小）

这里所指的训练集是指保存了每一帧的跟踪结果的训练集，也就是说，每一次进行model update的时候，要用在这一帧之前所有跟踪到的样本。那么随着视频越来越长，这个训练集就会越来越大。那么一般的解决方案是保存比较新的样本，丢弃老的样本，具体策略每个方法都不一样。这样一来，模型还是容易过拟合。因为当目标被遮挡或者丢失的时候，比较新的这些样本本身就是错的，那么模型很容易有model drift，就是被背景或者错误的目标污染，导致跟踪结果出错。另外，样本集的保存也会使得空间效率低下，增加计算负担。

(3) Model Update

这个很显然，模型如果每帧都更新，速度肯定比间歇更新要慢。我发现16年下半年开始，做tracking的人开始非常关注这个问题。而在此之前，很多方法基本都是每帧都更新的。另外每帧都更新也会有model drift问题，这个显而易见不再赘述。
在这里插入图片描述

ECO在特征提取上做了简化。用了原来特征的子集，从D维的特征中选了其中的C维。C-COT是每个维度的特征对应一个滤波器，D维的特征就有D个滤波器，其实很多滤波器的贡献很小。如图一所示，C-COT的大部分滤波器的能量很小。而ECO只选择其中贡献较多的C个滤波器，C<D，然后每一位特征用这C个滤波器的线性组合来表示。这里的C维如何选择文中没有具体说，我猜测是简单的利用滤波器中大于某个阈值的元素个数来选择。

在这里插入图片描述