背景
本篇论文研究的内容是视觉对话(Visual Dialogue,VD)系统。在这里我们主要学习它的多模态特征的交互和融合方式。
摘要
视觉对话系统是一个具有长上下文(问答历史记录)的多模态任务,同时每次作答也需要抽取、组合来自多模态数据的特征而后进行推理来得到答案。在视觉对话系统中,传统的基于最大似然估计的方法只从积极的回答中学习,而忽略了消极的消极,因此倾向于产生安全的或通用的回答(即回答不会出错,但也没有什么有价值信息)。为了解决这个问题,我们提出了一种全新的训练模式并结合加权似然估计的新方法。在此基础上,设计了自适应多模态推理模块,可自动适应各种对话场景并选择相应的信息。
引言
多模态推理涉及从多模态输入中提取和组合有用的信息,它被广泛应用于视觉和语言的交叉领域,对于VD任务,推理可以应用于图像(I)、问题(Q)和历史对话内容(H)。在前人的工作中,多模态信息的推理路径曾被手工设计为" Q − > H − > I Q->H->I Q−>H−>I",之后再被细化成" Q − > I − > H − > Q Q->I->H->Q Q−>I−>H−>Q“甚至是” Q − > I − > H Q->I->H Q−>I−>H",与以往的工作不同,本文提出了一种不预先定义推理顺序的自适应推理方案。
方法
通用的自适应的对话系统 Generative VD System
问题的定义
初始化的输入是一张图像和相应的caption。在第 t t t个回合中,模型能够获取到的输入包括图像I,历史"ground-truth"对话 H t − 1 H_{t-1} H