论文阅读笔记-learning multi-domain convolutional neural networks for visual tracking

本文深入解析了VOT2015跟踪挑战赛冠军算法,该算法通过设计多域卷积神经网络实现高效目标跟踪,解决了目标形变、快速移动等问题,但牺牲了一定的速度。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

论文阅读笔记-learning multi-domain convolutional neural networks for visual tracking

VOT 2015挑战赛的冠军论文,16年又发表在CVPR上,性能很强大,几乎可以称得上是目前跟踪性能最好的一种算法。
铺垫完了之后,说一下该算法的优缺点:
优点嘛,当然是跟的准,基本上形变啊,快速移动啊,光照啊,低分辨率啊,遮挡啊,这些都不是问题;
不过缺点也很明显,那就是慢!官方数据说是一秒一帧就已经很慢了,而在第一帧开始之时单是网络再训练就得十几秒,每隔十帧的网络微调也得花费两倍的时间,中间的九帧倒是差不多一秒一帧。
不过性能好,再慢也忍了,接下来就详述一下这篇论文的内容。

首先,作者抛出了一个引子,说基于分类的网络不适用于做目标跟踪,原因在于,同一个object在不同的序列里可能是目标,也有可能只是一个路人甲,而分类的话不会区分这些;此外,之前那些算法都是为所有的序列学习一个统一的分类器,没有具体区分目标到底是人是鬼,啊不,是人是车,作者觉得这怎么可以呢,我们应该针对每一个序列的目标单独训练其分类器,大家互不影响,这样才对嘛。但是呢,作者又考虑到底层的很多特征是通用的,也是可以互利互惠的,因此,灵机一动,设计出了下图这样的网络结构:


这个网络结构算是比较符合作者的心意了,前面这些层叫shared layers,大家一起公用提提特征啥的,最后一层呢是specific layer,这个就是本文的大特色了,论文的题目multi-domain说的就是这里。这里的特别之处在于,针对每一个训练序列,作者都为它单独分了一个支路,有多少个序列,就分多少支路,这样就实现了作者针对每一个序列单独训练分类器的设想。每一个fc6的分枝都是一个二分类器,来针对这个序列分别给出正负样本的概率得分,是不是听起来就很牛逼的样子。
接着来说说训练网络的一些细节问题,为了在第三个卷积层获得3*3的特征,作者反向推算出输入的图像大小应该是107*107,,所以所有的输入图像大小都是107*107哦;为了有个好的初始化,迁移学习大法好,作者对于前三层卷积层就直接迁移使用了VGG-M训练好的参数,然后用很小的学习率更新,后面全连接层用的随机初始化,学习率是前三层的十倍倍乘。至于输入图像,并不是原图像,而是crop出的部分图像,也就是样本,然后resize到固定大小107*107,再送入网络。
另外一点要说的是,作者到底是如何摆放这些序列的训练顺序的,如果你说一个接一个,一个训练完了再训练下一个呗,那就太naive了,当初naive的我就这样试着训练了一个自以为会很牛逼,结果惨不忍睹的网络,会对最后一个序列过拟合啊亲!  聪明的作者当然也考虑到了这个问题,所以,他在训练的时候,一个序列只训练一个batch,就换下个序列,然后外面用个大循环,多循环几回就把每个序列都训练到位了,是不是很机智。
好,搞懂这些之后,就开始网络训练了,大概个把小时以后,训练过程结束。训练结束也就意味着我们即将告别这些形形色色的fc6各分支同胞们,感谢他们在训练过程中做出的贡献,但是由于这是针对每个序列特有的分类器,而未来的行程中他们将不再有什么价值,所以,这些分支将全被拆掉。取而代之的是一个全新的单个的fc6,在跟踪阶段,我们将会用第一帧的正负样本来对这个新的fc6进行训练,使之成为对当前目标所特有的分类器。与此同时,前三个卷积层参数会冻结,来保留低层通用特征,不进行参数更新,而fc4和fc5会有微微的更新,以适应新序列新目标。
跟踪阶段里,作者也是使用了很多的技巧,至于详情有机会再补喽。

### 回答1: simam是一种简单的、无需参数的注意力模块,用于卷积神经网络。它可以帮助网络更好地捕捉输入数据中的重要信息,提高模型的性能。simam的设计简单,不需要额外的参数,可以方便地集成到现有的卷积神经网络中。 ### 回答2: SimAM(简单、无需参数的注意力模块)是一种卷积神经网络的注意力机制,旨在显著提高图像分类和物体检测任务的性能。这个模块可以自适应地学习到不同层的特征,并对其进行加权,以便更好地捕获相关信息并抑制噪声。 SimAM模块的核心思想是将一组特征向量传递到一个简单的多头自注意力层,以便为不同特征之间的联系评分,并生成那些较为重要的特征向量,这些向量随后用于后续的网络计算中。具体来说,SimAM模块将输入特征张量分为若干个通道,并将每个通道作为输入,送入多头自注意力层。该层是由若干个子层堆叠而成的,其中每个子层都包括一个多头自注意力机制和一些前向反馈层。自注意力机制可以捕捉到输入特征张量内部各个通道之间的关系,并生成相应的权重矩阵。前向反馈层可以帮助模型更好地适应各种难以预测的数据。 SimAM模块与传统的注意力机制相比,具有以下优点: 1.不需要额外的参数:SimAM模块不需要任何额外的参数,仅仅依靠了平移不变性和自注意力机制即可提取图像特征。 2.易于训练:模块中的每个子层都具有非常简单的结构,可以很容易地进行训练和调整参数。 3.高效:SimAM模块的计算成本低,且可以与传统的卷积神经网络结构相结合,以提高图像分类或物体检测的精度。 总之,SimAM模块是一种非常优秀的注意力机制,具有简单而有效的设计,可用于各种计算机视觉应用中。相信随着更多研究人员的关注,SimAM模块会在未来得到更多的应用和发展。 ### 回答3: Simam是一种简单的、无参数的卷积神经网络注意力模块,它能够提高卷积神经网路的性能。该模块的主要目的是为了实现对卷积层特征的自适应加权,从而优化卷积神经网络的训练过程。 在卷积神经网络中,每个卷积层都会生成一系列特征图,这些特征图可以被看作是卷积层对输入图像的不同抽取方式。在经过多层的卷积操作后,这些特征图逐渐变得抽象和复杂,也变得更具有区分度。然而,由于不同的特征图的质量和作用是不同的,因此,需要一种方法来自适应地对它们进行加权,以便提高整个网络的性能。 Simam模块的核心思想是使用特定的权重来实现对特征图进行加权。这些权重的计算不需要任何参数,而是通过应用一些简单的非线性映射来实现的。具体来说,Simam模块会对特征图进行归一化,然后通过一些非线性函数(如ReLU)进行变换,最终得到一个类似于置信度的分数,从而决定特征图的相对重要性。 在使用Simam模块的卷积神经网络中,该模块被添加在卷积层之后,可以作为一种自适应加权机制来对特征图进行加权。这种机制能够更加准确地区分每个特征图的质量和作用,从而提高整个卷积神经网络的性能。 总之,Simam模块是一种简单而有效的自适应加权机制,可以提高卷积神经网络的性能。在实际应用中,它可以被广泛应用于图像分类、物体检测、语义分割等领域,从而提高计算机视觉的精度和效率。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值