2018-A Teacher Student Network for Video Classification Using Fewer Frames

本文介绍了一种使用教师-学生网络进行视频分类的方法,旨在减少计算时间。教师网络处理所有帧,而学生网络仅处理视频的一小部分帧。在YouTube-8M数据集上的实验表明,学生网络在性能轻微下降的情况下,推理时间可以减少30%。学生网络的性能接近教师网络,尤其是在从视频中均匀采样帧时效果更佳。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

arxiv:https://arxiv.org/abs/1805.04668

作者首先训练了一个教师网络,它查看视频中的所有帧。然后训练一个学生网络,其目标是只处理视频中的一小部分帧,并且产生的结果非常接近教师网络。作者在YouTube-8M数据集上进行了实验,结果表明所提出的学生网络在性能下降很小的情况下,推理时间可以减少30%。
作者关注了一个最先进的模型,其性能在这个数据集上接近最好,将此模型作为教师网络,并训练了一个可比较的学生网络。在这项工作中,作者选择了分层RNN(hierarchical RNN)基模型。该模型假设每个视频包含一个由b个大小相等的块组成的序列。每一个块依次是m帧的序列,从而使整个视频成为序列的序列。每个块是m个1秒帧的集合。该模型包含一个较低级的RNN对帧序列进行编码,较高级别的RNN对块序列进行编码。教师网络查看所有N帧视频,并计算视频的编码,然后将其馈送到具有多类输出层的简单前馈神经网络,教师网络和输出层的参数使用标准的多标签分类损失L模型学习。学生网络只处理第j帧(F0,FJ , F2J,…FN-1)在这里插入图片描述
N为视频总帧数
我们引入一个额外的损失函数,如下所示,它确保学生网络计算的表示与教师网络计算的表示非常相似。在这里插入图片描述
我们还尝试了模型的一个简单变体,除了确保最终表示es和et相似外,我们还确保模型的中间表示相似。特别地,我们通过最小化相应中间表示之间的平方误差距离来确保由教师和学生网络计算的帧j、2j等的表示非常相似。教师网络、学生网络和输出层的参数联合训练,如图1所示。请注意,为了便于说明,在图中,我们显示了一个简单的RNN模型,而不是层次RNN模型。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值