CLIP在视频领域的应用(CLIPBERT,CLIP4Clip,CLIP2Video,CLIPTV)

这篇博文介绍了CLIP模型在视频理解任务中的扩展和应用,包括CLIPBERT、CLIP4Clip、CLIP2Video和CLIP2TV。CLIPBERT通过稀疏采样减少计算量,CLIP4Clip关注视频-文本的相似性计算,CLIP2Video引入时间差分和对齐块处理视频时空信息,CLIP2TV则利用动量蒸馏改进视频文本检索。这些工作都致力于优化CLIP在视频领域的表现。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

CLIP论文之后,涌现了很多任务,由于原始CLIP是为了图像设计的,因此这篇博文整理了几篇改装CLIP进行视频理解的工作。关于CLIP细节不做赘述,可以参考博主以前的博文:

在这里插入图片描述
CLIPBERT
来自CVPR2021。作者的motivation来自于,目前大部分预训练模型都使用提前提取好的特征提取器,然而1)固定的特征对于不同的下游任务来说不是最优的,且不同的模态的特征相互独立。2)密集的视频特征的计算量要求较高,以原视频作为输入太慢了,因此特征提取器很难参与到微调中。

因此作者提出了CLIPBERT,通过稀疏采样,即只使用一个或几个稀疏采样的视频短片段来代替整个视频,以less-is-more的原则使模型可以负载端到端学习。如上图所示,该模型仅仅使用少量的短片段即可,然后对多个短片段的预测进行融合如平均池化,以得到最终在整个视频级上的预测。这种先稀疏训练后密集推理的策略可以大大减少内存需求和计算量。具体的CLIPBERT的结构如下图所示:
在这里插入图片描述
博主个人觉得值得注意的点有:

  • Sparse Sampling。稀疏采样的策略会随机地从完整视频中进行抽取并用于训练,这个数目比使用所有片段要少得多。
  • 对于视觉编码器,作者使用内存消耗更少且更快的2D CNN即ResNet-50,而不是3D体系结构(如C3D或I3D)。因此
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值