[论文阅读] Self-Supervised Learning of Video-Induced Visual Invariances

提出一种基于视频的自监督学习框架VIVI,利用视频中不同层级的视觉不变性,实现可转移的视觉表征学习。在YouTube-8M数据集上训练后,在VTAB的19个下游任务上取得先进成果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

keypoints:自监督学习 self-supervised learning;video-induced; visual invariances; VIVI; VTAB

Abstract: We propose a general framework for self-supervised learning of transferable visual representations based on Video-Induced Visual Invariances (VIVI). We consider the implicit hierarchy present in the videos and make use of (i) frame-level invariances (e.g. stability to color and contrast perturbations), (ii) shot/clip-level invariances (e.g. robustness to changes in object orientation and lighting conditions), and (iii) video-level invariances (semantic relationships of scenes across shots/clips), to define a holistic self-supervised loss. Training models using different variants of the proposed framework on videos from the YouTube-8M (YT8M) data set, we obtain state-of-the-art self-supervised transfer learning results on the 19 diverse downstream tasks of the Visual Task Adaptation Benchmark (VTAB), using only 1000 labels per task. We then show how to co-train our models jointly with labeled images, outperforming an ImageNet pre-trained ResNet-50 by 0.8 points with 10× fewer labeled images, as well as the previous best super-vised model by 3.7 points using the full ImageNet data set.

文章链接:https://arxiv.org/abs/1912.02783v2

 做

(1)基于视频推理视觉不变性,提出了一个用于可转移视觉表示的自监督学习框架。

使用(视频中的隐式层次):     

                frame level 帧级不变性(对颜色和对比度扰动的稳定性)

                shot or clip level 镜头/剪辑级不变性(对物体方向和光照条件变化的鲁棒性)

                video level视频级别的不变性(镜头/剪辑之间场景的语义关系)        

        来共同定义自监督的损失。

(2)迁移学习:使用YouTube-8M(YT8M)数据集进行训练,在Visual Task Adaptation Benchmark上进行各种下游任务的测试,且每个任务仅使用1000个标签。

为什么做

(1)有监督学习需要大量数据的收集和手工注释,花费大量的人力物力,并且可能需要一定的领域专业知识(如医疗数据等);因此,学习可转移的视觉表征是一个关键的研究挑战。可转移的视觉表征是指通过训练一个任务(或任务集合)的模型获得的表征,然后可以使用少量样本适应多个不可见的下游任务。

(2)学习可转移的视觉表征,首先构造一个protext任务 (类似预训练),它不依赖于人工注释,但鼓励模型从输入提取有用的特征(有点无监督学习的意思)。视频数据很适合设计 Protext 任务,因为它们可以捕捉图像中没有的实例随时间的变化,并且视频数据和图片数据一样容易获取。(作者认为,基于视频的可以和基于图像的protext任务相结合,进一步提高自监督模型性能)

The intuition is that the model can leverage (1) the frames to learn to be robust to color perturbations or contrast changes, (2) the shot information to be robust to rigid and non-rigid transformations of objects in a scene, and that (3) explicitly accounting for the video-level context should encourage the model to capture semantic relationships of scenes across shots/clips. 

直观的感觉是,模型可以利用(1) 帧学习对颜色扰动或对比变化的鲁棒性,(2) 镜头信息对场景中对象的刚性和非刚性转换的鲁棒性,(3) 明确地考虑视频级别上下文应该鼓励模型捕捉跨镜头/剪辑的场景语义关系。

做出的成绩

(1)与单个帧、镜头或视频级别的自我监督目标相比,整体方法产生了一个更好地转移到大量下游任务的表示。另外一个好处是,该方法不需要预先计算光流或运动分割掩模,也不依赖于对象跟踪。

(2)在YouTube-8M (YT8M)数据集上训练提出的模型(不使用视频级标签),并表明该方法在视觉任务适应基准(VTAB)的19个不同下游任务上获得了最先进的自监督结果,然后,我们展示了如何联合训练模型与标记图像,以10倍少的标记图像优于imagenet预先训练的ResNet-50。我们还研究了我们的联合训练模型对由视频中邻近帧的变化引起的自然扰动的鲁棒性。

帧级、镜头级和视频级编码方式

图1:(左),从下往上看,分为两个video-video1 和 video2,此为video-level。先看video1,又分为两个镜头shot,x的第一个下标表示shot。对每个视频级的每个镜头进行帧编码。然后使用池函数p对每个镜头聚合帧嵌入(The pooling function can have different forms, ranging from simple average pooling to attention pooling taking the values of the individual frame embeddings f(xik,ℓ) into account.),得到镜头嵌入e。然后使用预测函数gm计算视频水平上的预测。

Shot-level prediction functions are trained to predict pretext (label-free) targets from shot embeddings.

(右) repulsive 互斥的  attractive 互相吸引的  predictive 预测的,如图左下所示,同一个shot的帧是相互靠近的(即互相吸引),而不同视频级别是互斥的,其中video1 中的两个镜头shot 嵌入(聚合)预测。(直观地说,我们希望选择帧/镜头和视频级别的损失,即嵌入来自同一镜头的帧彼此靠近,以及来自不同镜头或视频的帧彼此相距很远,同时使用(简单的)预测函数鼓励来自同一视频的镜头嵌入彼此预测。)

未来

对于视频中自然扰动的鲁棒性似乎是极具挑战性的,值得在未来进行研究,进一步研究如何克服与视频引起的扰动相关的鲁棒性问题。

研究如何更好地理解用于上游训练的损失和数据集的选择,影响下游评估中不同任务的表现的机制。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值