基于问题类型先验知识的多交互学习用于视觉问答中的答案搜索空间约束
立即解锁
发布时间: 2025-09-03 01:00:35 阅读量: 10 订阅数: 40 AIGC 


视觉与语言的融合探索
### 基于问题类型先验知识的多交互学习用于视觉问答中的答案搜索空间约束
#### 1. 引言
视觉问答(VQA)任务旨在为给定问题提供与给定图像视觉内容一致的正确答案。由于它是计算机视觉、自然语言处理和推理等不同研究领域的交叉,VQA研究面临着一系列挑战。近年来,因其广泛的应用,VQA受到了极大关注,也催生了大规模数据集和评估协议。
有研究将问题类型作为辅助信息,以帮助推理答案。然而,训练数据中问题类型和答案之间的关系尚未得到充分研究。例如,在VQA 2.0数据集中,关于数量的问题通常应该用数字回答,而不是颜色,这种问题类型和答案之间的相关性可以为VQA模型提供答案搜索空间的约束,有助于模型做出最终预测,提高整体性能。
在当前的VQA系统中,联合模态组件起着重要作用,它能学习语言和视觉输入之间有意义的联合表示。不同的联合模态方法或注意力机制可能捕捉输入的不同方面,不同的注意力机制在处理不同类型的问题时可能会给出不同的答案。但大多数现有的VQA系统基于单一的注意力模型,因此有必要开发一个能利用不同注意力模型能力的VQA系统。
为此,我们提出了一种基于问题类型先验知识的多交互学习(MILQT)方法,该方法从问题中提取问题类型的先验知识,以约束答案搜索空间,并利用多种注意力机制在处理不同类型问题时的不同行为。我们的贡献如下:
- 提出了一种新颖的VQA模型,利用问题类型信息增强VQA损失。
- 发现不同的注意力机制在处理不同类型的问题时表现不同,并通过设计的模型利用这一特性提高性能。
- 大量实验表明,在广泛使用的VQA 2.0和TDIUC数据集中,该模型与最具竞争力的方法相比表现最佳。
#### 2. 相关工作
近年来,VQA吸引了计算机视觉和自然语言处理领域的广泛关注,相关研究主要集中在不同注意力模型的开发上。例如:
- 提出了多模态紧凑双线性(MCB)池化方法,将视觉和语言特征投影到更高维空间,并在快速傅里叶变换空间中使用逐元素乘积高效卷积。
- 提出了堆叠注意力网络(SAN),通过多步推理定位与问题相关的图像区域以进行答案预测。
- 采用自上而下的注意力机制,通过对图像特征和语言特征的组合应用非线性变换来学习每个图像区域的注意力权重。
- 提出了一种密集、对称的注意力模型,允许每个问题词关注图像区域,每个图像区域关注问题词。
- 提出了双线性注意力网络(BAN),找到双线性注意力分布以无缝利用给定的视觉 - 语言信息。
- 引入了跨模态编码器表示(LXMERT),用于学习视觉概念和语言语义之间的对齐关系。
在问题类型方面,以往的工作也考虑了问题类型信息来改进VQA结果。例如,Agrawal等人训练了一个单独的问题类型分类器,将输入问题分为“是 - 否”和“非是 - 否”两类,然后分别进行处理;Shi等人训练问题类型分类器预测问题类型,并用预测的问题类型对不同视觉特征的重要性进行加权;Kafle等人也使用问题类型通过贝叶斯推理模型改进VQA预测。
与这些工作不同,我们将问题类型作为先验知识,通过损失函数约束答案搜索空间,还能识别不同联合模态方法在处理不同类型问题时的性能,并通过多交互学习利用这些方法的行为来给出最终答案,进一步提高VQA性能。
#### 3. 方法
##### 3.1 输入表示
- **问题表示**:给定输入问题,我们将其修剪为最多12个单词,不足12个单词的问题进行零填充。每个单词用一个600维的向量表示,该向量是300维GloVe词嵌入和训练数据中的增强嵌入的拼接。这一步得到一个大小为12×600的词嵌入序列,记为fw。为了获取问题的意图,将fw通过一个门控循环单元(GRU),得到输入问题的1024维向量表示fq。
- **图像表示**:受VQA领域最新进展的启发,我们使用以Faster R - CNN为骨干的自底向上注意力机制来提取图像表示。输入图像通过自底向上的网络,得到一个K×2048的边界框表示,记为fv。
##### 3.2 问题类型感知
- **问题类型分类**:该组件以问题嵌入fq为输入,通过多个全连接(FC)层,最后经过一个softmax层,产生一个关于P个问题类型的概率分布h,其中P取决于数据集(VQA 2.0中P = 3,TDIUC中P = 12)。从问题类型分类组件中提取的问题类型嵌入fqt将与注意力特征相结合,以增强输入图像和问题之间的联合语义表示,预测的问题类型将用于增强VQA损失。
- **多级多模态融合**:与以往只进行一级语言和视觉特征融合的工作不同,我们引入了多级多模态融合,以鼓励模型学习更好的联合语义空间。
- **第一级多模态融合**:与以往工作类似,给定视觉特征fv、问题特征fq和任何联合模态机制(如双线性注意力、堆叠注意力、自底向上注意力等),我们将视觉特征与问题特征相结合,学习注意力权重以对视觉和/或语言特征进行加权。不同的注意力机制有不同的学习联合语义空间的方式,具体细节可参考相关研究。这一级融合的输出记为fatt。
- **第二级多模态融合**:为了增强联合语义空间,将第一级多模态融合的输出fatt与问题类型特征fqt相结合。我们尝试了两种简单而有效的操作符,即逐元素乘法(EWM)或逐元素加法(EWA)。这一级融合的输出记为fatt - qt,可以看作是一种考虑了问题类型信息的注意力表示。给定一个注意力机制,fatt - qt将作为分类器的输入,用于预测相应问题的答案。
- **增
0
0
复制全文
相关推荐









