本文强调的点是语义对齐(semantics alignment),并且将VL任务划分为了三个部分,即识别图中的对象、属性、关系。
本文利用了ERNIE的知识掩蔽策略,即每次掩蔽整个短语或实体而不是子词(sub-word),这样做的优势是可以获取更具结构性的知识。这种方法与传统掩蔽的区别:1.传统掩蔽的单位是子词,是破碎的没有结构性知识的。2.传统掩蔽遵从完全的随机选择方式,对句子中的所有词一视同仁,但是实际上句子中的词也是有主次之分的(对象、属性、关系三类词是更为重要的)
本文中利用到了一种叫场景图片剖析(Scene Graph Parser)的工具,这个工具可以将图片和文字转化为场景图片(scene graph),即划分(对象、属性、关系)为三个部分的形式,并以依存树的方式展现出来,在mask的时候对树的各个节点进行mask对应三种不同的预训练任务。