CLIP论文之后,涌现了很多任务,由于原始CLIP是为了图像设计的,因此这篇博文整理了几篇改装CLIP进行视频理解的工作。关于CLIP细节不做赘述,可以参考博主以前的博文:
CLIPBERT
来自CVPR2021。作者的motivation来自于,目前大部分预训练模型都使用提前提取好的特征提取器,然而1)固定的特征对于不同的下游任务来说不是最优的,且不同的模态的特征相互独立。2)密集的视频特征的计算量要求较高,以原视频作为输入太慢了,因此特征提取器很难参与到微调中。
因此作者提出了CLIPBERT,通过稀疏采样,即只使用一个或几个稀疏采样的视频短片段来代替整个视频,以less-is-more的原则使模型可以负载端到端学习。如上图所示,该模型仅仅使用少量的短片段即可,然后对多个短片段的预测进行融合如平均池化,以得到最终在整个视频级上的预测。这种先稀疏训练后密集推理的策略可以大大减少内存需求和计算量。具体的CLIPBERT的结构如下图所示:
博主个人觉得值得注意的点有:
- Sparse Sampling。稀疏采样的策略会随机地从完整视频中进行抽取并用于训练,这个数目比使用所有片段要少得多。
- 对于视觉编码器,作者使用内存消耗更少且更快的2D CNN即ResNet-50,而不是3D体系结构(如C3D或I3D)。因此