论文阅读——Knowledge-Embedded Representation Learning

Authors

在这里插入图片描述

Abstract

  • 研究如何将丰富的专业知识与深度神经网络架构统一起来,并提出了一个知识嵌入式表示学习(KERL)框架来处理细粒度图像识别问题。
  • 以知识图的形式组织丰富的视觉概念,并使用门控图神经网络通过图传播节点消息以生成知识表示。
  • 通过引入一种新颖的门控机制,KERL框架将这种知识表示形式纳入了判别性图像特征学习中,即,将特定属性与特征图隐式关联。
  • 与现有的细粒度图像分类方法相比,KERL框架具有几个吸引人的属性:
    a)嵌入的高级知识可增强特征表示,从而有助于区分下级类别之间的细微差异。
    b)我们的框架可以以有意义的配置学习特征图,突出显示的区域与知识图的节点(特定属性)完全一致。

(一) Introduction

  • 人类不仅基于物体的外观,而且还基于从日常生活或专业中获得的知识来执行物体识别任务。通常,此知识是指包括类别标签及其属性的全面视觉概念组织。

  • 对于细粒度的图像分类而言,这非常有益,因为属性始终是区分不同下属类别的关键。

  • 例如,我们可能从一本书中得知,“波希米亚连雀”类别的鸟的头顶上有黑白相间的颜色,翅膀上有虹彩的羽毛。有了这些知识,要识别给定鸟类图像的“波希米亚连雀”类别,我们可能首先会回想起该知识,参加相应的部分以查看其是否具有这些属性,然后进行推理。

  • 图1举例说明了专业知识如何帮助进行细粒度的图像识别。

  • 用于细粒度图像分类的常规方法通常会忽略此知识,而仅依靠低级图像提示进行识别。

  • 利用自然语言描述来帮助搜索信息区域,并与视觉流结合以进行最终预测。集成了高级信息,但它直接为图像语言对建模,并且需要对每个图像进行详细的语言描述(例如,每个图像的十个句子)。

  • 与这些方法不同,本论文以知识图的形式组织有关类别和基于零件的属性的知识,并制定了知识嵌入表示学习(KERL)框架,将知识图纳入图像特征学习中,以促进细粒度图像识别。

  • 提出的框架能够将特定属性与图像特征表示相关联。

KERL框架包含两个关键组件:

  • 门控图神经网络(GGNN),该节点通过图传播节点消息以生成知识表示;
  • 一种新颖的门控机制将此表示形式与图像特征学习集成在一起,以学习属性感知特征。

具体步骤:

  1. 首先构建一个大规模的知识图,该图将类别标签与部件级属性相关联,如图2所示。
  2. 通过使用给定图像的信息初始化图节点,KERL框架可能会隐含地推理出该对象的判别属性并将它们与特征图相关联。通过这种方式,我们的KERL框架可以通过有意义的配置学习特征图,突出显示的区域与图中的相关属性紧密关联。

举例:
       从“波希米亚连雀”类别中学习的样本特征图始终会突出显示头部和翅膀的区域,因为这些区域与属性“头部图案:遮罩”,“头部颜色:白色和黑色”和“翅膀:虹彩”相关”是区分此类别与其他类别的关键。此特征还提供了对为什么框架可以提高性能的深入了解。

图2:用于对Caltech-UCSD鸟类数据集上的类别-属性相关性进行建模的示例知识图。

论文贡献:

  1. 这项工作制定了一个新颖的知识嵌入式表示学习框架,该框架结合了高级知识图作为图像表示学习的额外指导。这是调查这一点的第一项工作。
  2. 在知识的指导下,论文框架可以学习具有意义且可解释的配置的属性感知特征图,其中突出显示的区域与图中的相关属性精细相关,这也可以解释性能的提高。
  3. 对广泛使用的Caltech-UCSD鸟类数据集进行了广泛的实验,并证明了所提出的KERL框架优于领先的细粒度图像分类方法。

(二) Related Work

从两个研究阶段回顾了相关工作:细粒度图像分类和知识表示。

2.1 Fine-Grained Image Classification

目前主流方法:

  • 深度卷积神经网络(CNN)来学习判别性特征以进行细粒度图像识别。
  • 首先定位区分区域,然后学习以这些区域为条件的外观模型。但是,这些方法涉及对象部分的大量注释,此外,手动定义的部分对于最终识别可能不是最佳的。
  • 采用突出区域定位技术自动生成判别区域的边界框注释。
  • 视觉注意力模型自动搜索信息区域。
  • 引入循环注意力卷积神经网络,以递归学习多尺度的注意力区域和基于区域的特征表示。
  • 利用局部属性指导关注区域的定位。

论文方法:

以知识图的形式组织类别-属性关系,并隐含地推理图表上的区别属性,而不是直接使用对象-属性对。

2.2 Knowledge Representation

目前主流方法:

  • 使用马尔可夫逻辑网络学习知识库,并采用一阶概率推理来推理对象的承受能力。这些方法通常包含手工制作的功能和手动定义的传播规则,从而阻止了它们进行端到端训练。
  • 根据图的边缘对图上的节点进行排序,以使其具有规则的顺序,并将其直接馈送到标准CNN进行特征学习。

GGNN:

  1. 一种完全可区分的递归神经网络体系结构,用于图结构化数据,该结构以递归方式将节点消息传播到其邻居,以学习节点级特征或图形级表示。
  2. 图神经网络变体,用于RGBD语义分割的3DGNN,用于情况识别的基于模型的GNN 。用于多标签图像识别的GSNN 。
  3. GSNN是将图像和知识特征连接起来进行图像分类。相反,此论文提出一种新的门机制将知识表示嵌入到图像特征学习中,以增强特征表示。此外,我们学到的特征图展示了有见地的配置,突出显示的区域与图中的语义属性很好地吻合。

(三)KERL Framework

主要任务:

  • 回顾GGNN,
  • 介绍将类别标签与其零件级属性相关联的知识图的构造。
  • 详细介绍KERL框架,该框架由用于知识表示学习的GGNN和将知识嵌入判别式图像表示学习的门控机制组成。

框架的总体流程如图3所示。
在这里插入图片描述
图3:知识嵌入式表示学习框架的总体流程。

图解: 该框架主要包括一个以知识图作为输入并通过该图传播节点信息以学习知识表示的GGNN,以及一个将表示嵌入到特征学习中以学习属性感知特征的门控机制。可以端到端的方式训练框架的所有组件。

3.1 Review of GGNN
  • GGNN是递归神经网络体系结构,可以通过迭代更新节点特征来学习任意图结构数据的特征。
  • 对于传播过程,输入数据表示为图形 G = { V , A } G=\left \{V,A\right \} G={ V,A},其中 V V V是节点集, A A A是邻接矩阵,表示图中节点之间的连接。对于每个节点 v ∈ V v∈V vV,它在时间步 t t t处具有隐藏状态 h v t h_{v}^{t} hvt,并且 t = 0 t = 0 t=0时的隐藏状态由输入特征向量 x v x_{v} xv初始化,该输入特征向量 x v x_{v} xv取决于当前的问题。
  • 基本的循环过程表述为:

注释:

  • A v A_{v} Av是A的子矩阵,表示节点 v v v与它的邻居的连接。
  • σ σ σ t a n h tanh tanh分别是逻辑S形和双曲正切函数。
  • ⊙ \odot 表示逐元素乘法运算。
  • 重复传播过程直到固定迭代 T T T,可以获得最终的隐藏状态
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值