(七十八):Co-attending Free-form Regions and Detections with Multi-modal Multiplicative Feature Embedding for
- 出处:AAAI 2018: 7218-7225
- 代码:https://github.com/lupantech/dual-mfa-vqa.
- 题目:基于多模态乘性特征嵌入的联合参与自由区域与视觉问答检测
- 主要内容:基于问题、整体图像和检测框的自由形式区域和检测框共同参与,更好地利用互补信息解决VQA任务。网络具有两个具有乘法特征嵌入方案的注意分支,一个分支参与自由形状图像区域,另一个分支参与与问题相关的视觉特征编码的检测框。
Abstract
近年来,视觉问答(VQA)任务在人工智能领域得到了越来越多的关注。现有的VQA方法主要采用视觉注意机制,将输入的问题与相应的图像区域进行关联,从而实现有效的问题回答。目前研究较多的是基于自由形状区域的视觉注意机制和基于检测的视觉注意机制,前者关注自由形状图像区域,后者关注预先设定的检测盒区域。我们认为,这两种注意机制能够提供互补的信息,并应进行有效的整合,以更好地解决VQA问题。
在本文中,我们提出了一种新的深度神经网络,该网络集成了两种注意力机制。我们提出的框架通过多模态乘法特征嵌入方案,有效地融合了自由形状图像区域、检测框和问题表示的特征,从而联合参与与问题相关的自由形状图像区域和检测框,从而实现更准确的问题回答。
本文提出的方法在两个公开可用的数据集COCO-QA和VQA上进行了广泛的评估,并优于最先进的方法。源代码可从ht