ALBEF算法解读

最新推荐文章于 2024-12-30 14:00:00 发布

xddwz

最新推荐文章于 2024-12-30 14:00:00 发布

阅读量1.5k

点赞数 19

CC 4.0 BY-SA版权

分类专栏： LLM与多模态论文解读文章标签：算法

本文链接：https://blog.csdn.net/xddwz/article/details/136197114

ALBEF论文介绍了一种在视觉和语言表示学习中应用动量蒸馏的技术，通过对比学习（ITC）、匹配学习（ITM）和语言建模（MLM）改进多模态模型的性能。论文强调了模态融合的重要性，特别是视觉模型的规模，并提出了动量模型来处理噪声数据和困难的负样本。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

ALBEF论文全名Align before Fuse: Vision and Language Representation Learning with Momentum Distillation，来自于Align before Fuse，作者团队为Salesforce Research。
论文地址：https://arxiv.org/pdf/2107.07651.pdf
论文代码：GitCode - 开发者的代码家园

1、灵感来源

a)图 (a) 是VSE架构，它们的文本端就是直接抽一个文本特征，但是它们的视觉端非常大，需要的计算量非常多，因为它通常是一个目标检测器。当得到了文本特征和视觉特征之后，它最后只能做一个很简单的模态之间的交互，从而去做多模态的任务。

b)图（b）是CLIP的结构，视觉端和文本端都用同等复杂度的encoder进行特征提取，再做一个简单的模态交互，结构优点是对检索任务极其有效，因为它可以提前把特征都抽好，接下来直接算Similarity矩阵乘法就可以，极其适合大规模的图像文本的检索，非常具有商业价值。缺点是只计算Cosine Similarity无法做多模态之间深度融合，难一些的任务性能差。

c)图（c）是Oscar或者ViLBERT、Uniter采用的架构，因为对于多模态的任务，最后的模态之间的交互非常重要，只有有了模态之间更深层的交互，VQA、VR、VE这些任务效果才会非常好，所以他们就把最初的简单的点乘的模态之间的交互，变成了一个Transformer的Encoder，或者变成别的更复杂的模型结构去做模态之间的交互，所以这些方法的性能都非常的好，但是随之而来的缺点也很明显：所有的这一系列的工作都用了预训练的目标检测器，再加上这么一个更大的模态融合的部分，模型不论是训练还是部署都非常的困难。

d)图 (d) 是ViLT的架构。当Vision Transformer出来之后，ViLT这篇论文就应运而生了，因为在Vision Transformer里，基于Patch的视觉特征与基于Bounding Box的视觉特征没有太大的区别，它也能做图片分类或者目标检测的任务，因此就可以将这么大的预训练好的目标检测器换成一层Patch Embedding就能去抽取视觉的特征，所以大大的降低了运算复杂度，尤其是在做推理的时候。但是如果文本特征只是简单Tokenize，视觉特征也只是简单的Patch Embedding是远远不够的，所以对于多模态任务，后面的模态融合非常关键，所以ViLT就直接借鉴 c类里的模态融合的方法，用一个很大的Transformer Encoder去做模态融合࿰