【论文笔记】ERNIE-VIL: KNOWLEDGE ENHANCED VISION-LANGUAGE REPRESENTATIONS THROUGH SCENE GRAPH

本文探讨了语义对齐在视觉语言(VL)任务中的关键作用,介绍了如何通过ERINE的知识掩蔽策略来捕捉更结构化的知识。此外,还介绍了一种名为场景图片剖析的工具,该工具能够将图片及其描述转换成场景图,从而更好地识别对象、属性及关系。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在这里插入图片描述
本文强调的点是语义对齐(semantics alignment),并且将VL任务划分为了三个部分,即识别图中的对象、属性、关系。

本文利用了ERNIE的知识掩蔽策略,即每次掩蔽整个短语或实体而不是子词(sub-word),这样做的优势是可以获取更具结构性的知识。这种方法与传统掩蔽的区别:1.传统掩蔽的单位是子词,是破碎的没有结构性知识的。2.传统掩蔽遵从完全的随机选择方式,对句子中的所有词一视同仁,但是实际上句子中的词也是有主次之分的(对象、属性、关系三类词是更为重要的)
在这里插入图片描述

本文中利用到了一种叫场景图片剖析(Scene Graph Parser)的工具,这个工具可以将图片和文字转化为场景图片(scene graph),即划分(对象、属性、关系)为三个部分的形式,并以依存树的方式展现出来,在mask的时候对树的各个节点进行mask对应三种不同的预训练任务。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值