Sequence Level Training with Recurrent Neural Networks-学习笔记

最新推荐文章于 2025-06-10 01:46:29 发布

原创最新推荐文章于 2025-06-10 01:46:29 发布 · 1.6k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#自然语言处理 #机器学习 #深度学习

神经网络经典论文解读专栏收录该内容

16 篇文章

订阅专栏

强化学习NLP的论文……

Sequence Level Training with Recurrent Neural Networks

用递归神经网络进行序列级训练

0摘要

许多自然语言处理应用程序使用语言模型来生成文本。这些模型通常被训练来预测序列中的下一个单词，给定前面的单词和一些上下文，比如图像。然而，在测试时，模型将从头开始生成整个序列。这种差异使生成变得脆弱，因为错误可能会在生成过程中累积。我们通过提出一种新的序列级训练算法来解决这个问题，该算法直接优化测试时使用的度量，例如BLEU或ROUGE。在三个不同的任务上，我们的方法优于贪婪生成的几个强基线。当这些基线采用beam search时，这种方法也很有竞争力，同时速度快了好几倍。

1 介绍

自然语言是人类最自然的交流方式。因此，交互式人工智能系统必须能够生成文本（Reiter&Dale，2000）。大量的应用依赖于文本生成，包括机器翻译、视频/文本摘要、问答等。从机器学习的角度来看，文本生成是在给定上下文的情况下，预测连续单词的语法和语义正确序列的问题。例如，给定一幅图片，生成一个适当的标题，或给定一个英语句子，将其翻译成法语。

文本生成模型的流行选择是基于n-grams的语言模型（Kneser&Ney，1995）、前馈神经网络（Morin&Bengio，2005）和递归神经网络（RNNs；Mikolov等人，2010）。这些模型在按原样生成文本时有两个主要缺点。首先，他们被训练预测下一个单词，给出前一个基本的真值单词作为输入。然而，在测试时，通过一次预测一个单词，并在下一个时间步将生成的单词作为输入反馈，结果模型被用来生成整个序列。这个过程非常脆弱，因为模型是在不同的输入分布上训练的，即从数据分布中提取的单词，而不是从模型分布中提取的单词。因此，在这一过程中所犯的错误将很快累积起来。我们将这种差异称为暴露偏差，当一个模型只暴露于训练数据分布，而不是它自己的预测时，就会发生这种偏差。第二，用于训练这些模型的损失函数是单词级的。一个流行的选择是交叉熵损失用于最大化下一个正确单词的概率。然而，这些模型的性能通常是使用离散度量来评估的。例如，一个这样的度量称为BLEU（Papineni et al.，2002），它度量模型生成和参考文本之间的n-gram重叠。训练这些模型来直接优化BLEU这样的度量是很困难的，因为a）这些度量是不可微的（Rosti等人，2011），并且b）需要组合优化来确定在给定的上下文中哪个子字符串使它们最大化。先前优化测试指标的尝试（McAllester et al.，2010；He&amp；Deng，2012）仅限于线性模型，或者需要大量样本才能很好地工作（Auli&amp；Gao，2014）。

本文提出了一种新的训练算法，与标准模型相比，改进了文本生成。该算法解决了上面讨论的两个问题，如下所示。首先，在训练生成模型的同时，通过在训练时使用模型预测来避免暴露偏差。其次，我们直接优化我们的最终评估指标。我们提出的方法是从强化学习文献（Sutton&Barto，1988）中获得的。特别是，我们在Williams（1992）提出的增强算法的基础上，实现了上述两个目标。在训练过程中，从模型中采样是增强算法的一个自然步骤，它还可以直接对任何测试度量进行优化。通过不要求报酬（或损失）是可微的来强化与优化的离散性相关的问题。虽然REINFORCE似乎非常适合解决文本生成问题，但它面临着一个重要的问题。文本生成的问题设置有很大的动作空间，使得初始随机策略的学习非常困难。具体地，用于文本生成的搜索空间的大小为O（WT），其中W是词汇表中的单词数（通常在104个或更多）并且T是句子的长度（通常在10到30个左右）。

为此，我们引入了混合增量交叉熵增强（MIXER），这是这项工作的第一个主要贡献。MIXER是易于执行的配方，可以使REINFORCE在文本生成应用程序中很好地工作。它基于两个关键思想：增量学习和结合REINFORCE和交叉熵的混合损失函数的使用（有关详细信息，请参见第3.2.2节）。两种成分对于大型行动空间的训练都是必不可少的。在MIXER中，该模型从交叉熵训练（而不是随机训练）给出的最优策略开始，然后慢慢地偏离该模型，以利用其自身的预测，就像在测试时所做的那样。

我们的第二个贡献是对三个不同的任务，即文本摘要，机器翻译和图像字幕，进行了全面的实证评估。我们将其与几个强大的基准进行比较，其中包括经过交叉熵训练的RNN和数据演示器（DAD）（Bengio等，2015； Venkatraman等，2015）。我们还将MIXER与我们在本文中提出的另一个简单而新颖的模型进行了比较。我们称其为端到端BackProp模型（有关详细信息，请参见第3.1.3节）。我们的结果表明，与所有三个任务的基线相比，带有简单贪婪搜索的MIXER可获得更高的准确性。此外，我们证明，具有贪婪搜索功能的MIXER比在推理时作为后处理步骤的beam search增强的交叉熵模型更为精确。这一点特别引人注目，因为带有贪婪搜索的MIXER至少比波束大小为10的交叉熵模型快10倍。最后，我们注意到，MIXER和beam search相互补充，可以结合起来进一步提高性能，尽管改进的程度取决于任务。

2 相关工作

序列模型通常通过交叉熵损失来预测下一个单词。在测试时，通常使用beam search来探索多个备选路径（Sutskever et al.，2014；Bahdanau et al.，2015；Rush et al.，2015）。虽然这通常通过一个或两个BLEU点提高了生成速度（Papineni et al.，2002），但它使生成速度至少慢了k倍，其中k是波束中活动路径的数量（更多细节见3.1.1）。

通过在训练时让模型使用自己的预测来改进生成的想法（这项工作的主要建议）最早由Daume III等人提出。（2009）。在开创性的工作中，作者首先注意到结构化的预测问题可以作为强化学习的一个特殊实例。然后，他们提出了SEARN，一种学习此类结构化预测任务的算法。基本思想是让模型在训练时使用自己的预测来产生一系列动作（例如，选择下一个单词）。然后，运行搜索算法以确定每个时间步长的最佳动作，然后训练分类器（又称为策略）以预测该动作。 Ross等人后来提出了类似的想法。（2011）在模仿学习框架中。不幸的是，对于文本生成，给定到目前为止已预测的单词，通常很难计算出最佳目标单词的预言值。甲骨文的问题后来被称为“数据作为演示者”（DAD）的算法解决（Venkatraman等，2015），Bengio等人将其应用于文本生成。（2015），其中步骤k的目标动作是最优策略（地面真相序列）采取的第k个动作，而不管是将哪个输入馈送到系统，是地面真相还是模型的预测。尽管DAD通常可以提高生成能力，但不管模型前面的单词是什么，强迫模型预测某个单词似乎都不令人满意（有关更多详细信息，请参见第3.1.2节）。

最后，REINFORCE已经用于其他应用，如计算机视觉（Mnih等人，2014；Xu等人，2015；Ba等人），以及语音识别Graves&Jaitly（2014）。虽然他们只是用交叉熵损失进行预训练，但我们发现使用混合损失和更温和的增量学习调度对于我们考虑的所有任务都很重要。

3 模型

我们在以下各节中描述的学习算法与基础模型的选择无关，只要它是参数化的即可。在本文中，我们将重点放在循环神经网络（RNN）上，因为它们是文本生成的流行选择。特别地，我们使用标准的Elman RNN（Elman，1990）和LSTM（Hochreiter＆amp; Schmidhuber，1997）。为了简单起见，但又不失一般性，我们讨论下一个Elman RNN。这是一个参数模型，该模型在每个时间步t都将单词wt∈W作为输入以及内部表示ht作为输入。 W是输入单词的词汇。此内部表示ht是一个实值向量，它编码该模型到目前为止所看到的单词的历史。可选地，RNN还可以将附加上下文向量ct作为输入，该向量对生成输出时要使用的上下文进行编码。在我们的实验中，ct是使用Bahdanau等人启发的专心解码器来计算的。（2015）和Rush等。（2015年），其详细信息在补充材料的第6.2节中给出。 RNN学习一个递归函数来计算ht并输出下一个单词的分布：

pθ和eθ的参数表达式取决于RNN的类型。Elman RNNs有:

其中模型A的参数是矩阵{Mo, Mi, Mn, M}的集合，也是计算Ct的附加参数。Softmax(x)是一个向量，其分量为，。而1(i)是一个指示器向量，只有第i个分量设为1，其余为0。我们假设序列的第一个单词是一个特殊标记，表示序列的开始，用W1 =Φ表示。第一个隐藏状态h的所有条目，都被设为一个常数值。

接下来，我们将介绍基线和建议的模型。当我们描述这些模型时，记住表1中概述的文本生成系统的关键特性是很有用的。在训练文本生成模型时，有三个重要方面很重要：可能对环境产生不利影响的曝光偏差在测试时生成，完全反向传播梯度（包括在每个时间步长上相对于所选输入）的能力以及在序列级别上运行的损耗。我们将开始讨论不具有任何这些理想功能的模型，然后转向更能满足我们要求的模型。我们建议的最后一个模型称为MIXER，具有所有的需求。

3.1 WORD-LEVEL TRAINING

现在，我们回顾了用于训练文本生成模型的方法集，这些模型可以提前优化一个单词的预测。我们从最简单，最流行的方法开始，该方法可以在每个时间步优化交叉熵损失。然后，我们讨论对它的最近提出的修改，该修改在训练期间明确使用模型预测。最后，我们提出一个简单而新颖的基线，该基线在训练过程中使用其模型预测，并且还具有在整个序列中反向传播梯度的能力。尽管这些扩展倾向于使生成更健壮，但它们仍缺乏在序列级别的明确监督。

图1：使用XENT进行RNN训练（顶部），以及如何在测试时使用它进行生成（底部）。在此示例中，RNN展开了三个时间步。红色椭圆形是一个计算损耗的模块，而矩形代表RNN一步完成的计算。第一步，给出所有输入。在剩下的步骤中，输入字在训练时被固定为基本事实，而在测试时被固定为模型预测（由wgt表示）。通过采用argmax或通过对单词分布进行采样来产生预测。

3.1.1 CROSS ENTROPY TRAINING (XENT)

交叉熵损失（XENT）根据模型使观察序列的概率最大化。如果目标序列是[w1; w2; ……; wT]，那么XENT培训涉及最小化。

当使用RNN时，每个项p（wt|w1;……; wt 1）被建模为参数函数，如公式（5）所示。此损失函数训练模型擅长在每个时间步长贪婪地预测下一个单词，而无需考虑整个序列。通过截断时间的反向传播来进行训练（Rumelhart等，1986），并进行梯度裁剪（Mikolov等，2010）。

一旦训练完成，就可以使用模型生成一个完整的序列，如下所示。让wgt表示模型在第t个时间步生成的单词。下一个单词由如下公式生成：

注意，我们训练模型使pθ(w|t, ht+1)最大化，其中wt是ground truth序列中的单词。然而，在生成过程中模型被用作pθ(w|wgt, ht+1)。换句话说，在训练过程中，模型只暴露于地面正确单词之前。然而，在测试时，模型只能访问它自己的预测，这可能是不正确的。因此，在生成过程中，模型可能会偏离要生成的实际序列很远。图l说明了这种差异。

公式（7）所描述的生成是一个贪婪的从左到右的过程，它不一定会根据模型产生最可能的序列，因为：

最可能的序列[w1; w2;……; wT]可能包含单词wt，它在中间时间步t处是次优的。这种现象通常称为搜索错误。减少搜索错误的影响是在每个点上不仅要搜索一个，而且要搜索k个下一个候选单词。尽管仍是近似的，但此策略可以恢复较高的得分顺序，就我们的最终评估指标而言，这些得分通常也更好。此过程通常称为beam search。使用beam search的缺点是，它会大大减慢生成过程。时间复杂度随着波束数k线性增长，因为我们需要为网络执行k个前向通过，这是最耗时的操作。 beam search算法的细节在第6.3节中描述。

3.1.2 DATA AS DEMONSTRATOR (DAD)

由于XENT的训练使用地面真实单词而不是模型预测，因此使用XENT进行的常规训练会遭受曝光偏差。DAD在（Venkatraman等人，2015）中提出并在（Bengio等人，2015）中用于序列生成，它通过将地面真实训练数据与模型预测相混合来解决此问题。在每个时间步长处，DAD都以前一个时间步长中的模型预测或地面真实数据作为输入来输入。Bengio等。（2015）提出了不同的退火时间表，以选择地面真词的概率。退火计划是这样的，从一开始，算法就始终选择地面真实单词。但是，随着训练的进行，模型预测会更频繁地被选择。这具有使模型更了解在测试时将如何使用它的效果。图2说明了该算法。

图2:DAD图解（Bengio等人，2015；Venkatraman等人，2015）。训练过程与XENT类似，只是在每个时间步我们都以一定的概率选择是采用先前的模型预测还是地面真值词。请注意，a）梯度不会通过最终的模型预测wgt反向传播，b）XENT loss始终使用参考序列中的下一个单词作为目标，即使输入是wgt。

DAD的主要局限性在于，无论何时选择输入，总是在每个步骤都从地面真实数据中选择目标标签。结果，目标可能无法与生成的序列对齐，从而迫使模型预测潜在的不正确序列。例如，如果地面真值序列是我走了很长一段路，而模型到目前为止已经预测了我走了，则DAD将强制模型再次预测单词走动。最终，梯度不会通过模型抽取的样本反向传播，并且XENT损失仍处于单词级别。这些问题如何影响下一代还不是很清楚。

3.1.3 END-TO-END BACKPROP (E2E)

新颖的E2E算法也许是最自然，最简单的近似序列级别训练方法，它也可以解释为对beam search的计算有效近似方法。关键思想是，在时间步长t + 1处，我们传播在前一个时间步长预测的前k个单词（而不是地面真实单词）作为输入。具体来说，我们从前一个时间步t得出单词的输出分布，并将其通过k-max层。该层将除k个最大值外的所有值都归零，并将它们重新归一化以求和。因此，我们有：

其中it+1；j是k个最大概率词的索引，vt+1；j是它们对应的分数。在时间步长t+1处，我们将k个得分最大的词作为输入，其贡献由它们的得分vs加权。这种方式平滑输入使得整个过程可以用标准的反向传播进行微分和训练。与beam search相比，这可以解释为将k个可能的下一个假设融合到一条路径中，如图3所示。在实践中，我们还采用了一个时间表，即我们在开始时只使用基本的真值词，并逐渐让模型在训练过程中使用自己的top-k预测。

图3：end to end BackProp方法的示意图。展开序列的第一步（此处仅是第一步）与使用交叉熵训练的常规RNN完全相同。但是，在其余步骤中，每个模块的输入都是一个稀疏向量，其非零项是在前一个时间步预测的k个分布的最大概率。错误也会通过这些输入反向传播。

3.2 SEQUENCE LEVEL TRAINING（序列水平训练）

现在，我们介绍一种用于序列级训练的新颖算法，我们称之为混合增量交叉熵增强（MIXER）。所提出的方法避免了曝光偏差问题，并且还直接针对最终评估指标进行了优化。由于MIXER是REINFORCE算法的扩展，因此我们首先从序列生成的角度描述REINFORCE。

3.2.1 REINFORCE

为了将强化算法（Williams，1992；Zaremba&Sutskever，2015）应用于序列生成问题，我们将问题转换为强化学习（RL）框架（Sutton&Barto，1988）。我们的生成模型（RNN）可以看作是一个agent，它与外部环境（词和上下文向量在每一个时间步都被视为输入）进行交互。此代理的参数定义了一个策略，该策略的执行将导致代理选择一个操作。在序列生成设置中，动作是指在每个时间步预测序列中的下一个单词。在执行操作之后，代理更新其内部状态（RNN的隐藏单元）。一旦代理到达序列的末尾，它就会观察到一个奖励。我们可以选择任何奖励功能。在这里，我们使用BLEU（Papineni et al.，2002）和ROUGE-2（Lin&Hovy，2003），因为这些是我们在测试时使用的度量。BLEU本质上是n-gram精度分数的几何平均数以及简洁性惩罚（Liang et al.，2006）；在这项工作中，我们考虑最多4-gram。而ROUGE-2的召回量超过了2-grams。就像模仿学习一样，我们有一套最佳动作序列的训练集。在训练过程中，我们根据当前策略选择动作，通过比较当前策略中的动作序列和最优动作序列，只在序列末尾（或在最大序列长度之后）观察一个奖励。训练的目标是找出使期望报酬最大化的agent参数。我们把损失定义为负的预期回报：

其中，wgn是模型在第n个时间步选择的单词，r是与生成的序列相关的奖励。在实践中，我们使用RNN实施的行动分布（上面等式的右手和补充材料的图9）中的单个样本来近似此期望。我们请读者参考先前的工作（Zaremba＆amp; Sutskever，2015； Williams，1992）以获取梯度的完整推导。在这里，我们直接报告偏导数及其解释。衍生品参数是：

其中ot是softmax的输入。损失函数Lθ对ot的梯度给出如下：

其中是第t+1次的平均回报。

该权重更新规则的解释很简单。公式10是标准反向传播（也称为链规则），而公式11与多类逻辑回归分类器的梯度几乎完全相同。在逻辑回归中，梯度是预测值与目标词的实际N表示形式之间的差异:

因此，公式11表示选择的单词wgt+1就像我们在时间t时输出分布的替代目标。强化首先建立一个基准，然后如果鼓励选择单词wgt+1，如果则不鼓励选择单词wgt+1。实际推导表明，选择平均奖励Ft有助于降低梯度估计量的方差，因为在公式9中，我们使用的是行动分布的单个样本。

在我们的实现中，基线是由一个线性回归器估计的，该回归器将RNN的隐藏状态ht作为输入。回归因子是对未来奖励的无偏估计，因为它只使用过去的信息。回归器的参数是通过最小化均方损失来训练的: 。为了防止反馈循环，我们不通过循环网络反向传播这个错误(Zaremba & Sutskever, 2015)。

REINFORCE是一种优雅的算法，可以使用任何用户定义的奖励在序列级别进行训练。在这项工作中，我们使用BLEU和ROUGE-2作为奖励，但是可以同样容易地使用任何其他指标。当按原样呈现时，与该算法相关的一个主要缺点是，它假定一个随机策略开始。这种假设会使大型行动空间的学习变得非常困难。不幸的是，文本生成是这样一种设置，其中动作集的基数约为104（词汇中的单词数）。这会导致很高的分支因子，在这种情况下，随机策略很难在任何合理的时间内改进。在下一节中，我们将介绍解决这些问题的MIXER算法，以更好地针对文本生成应用程序。

3.2.2 MIXED INCREMENTAL CROSS-ENTROPY REINFORCE (MIXER)-混合增量交叉熵增强(混合器)

MIXER算法借鉴了DAGGER（Ross等人，2011）和DAD（Venkatraman等人，2015; Bengio等人，2015）的思想，并对REINFORCE进行了适当的修改。第一个关键思想是更改REINFORCE的初始策略，以确保该模型可以有效地处理文本生成的大型操作空间。我们不是从糟糕的随机策略开始，而是训练模型收敛到最优策略，而是采取完全相反的做法。我们从最优策略开始，然后逐渐偏离最优策略，让模型进行探索并利用其自身的预测。我们首先使用地面真值序列训练带有NXENT历元的交叉熵损失的RNN。这样可以确保我们从比随机策略更好的策略入手，因为现在该模型可以专注于搜索空间的很大一部分。通过比较随机初始化的语言模型与经过训练的语言模型的困惑，可以更好地理解这一点。困惑度是对预测不确定性的一种度量，大致来说，它对应于模型在进行预测时犹豫的平均单词数。在我们的一个数据集上训练好的语言模型的困惑度为50，而随机模型的困惑度很可能接近词汇表的大小（约10000）。

第二个想法是在退火计划训练期间引入模型预测，以便逐步教会模型生成稳定序列。设T为序列的长度。在初始的NXENT epoch之后，我们继续训练NXE+R epoch的模型，这样，对于每个序列，我们在第一个(T-△)步骤使用XENT损失，而对其余的△步骤使用REINFORCE算法。在我们的实验中，△通常被设置为2或3。接下来，我们对每个序列使用XENT损失的步骤数进行退火(T-2△)，并对另一个NXE+R epoch重复训练。我们重复这个过程，直到只使用REINFORCE来训练整个序列。伪代码参见算法1执行。

我们将此算法称为混合增量交叉熵增强（MIXER），因为我们将XENT和REINFORCE结合在一起，并使用了增量学习（又称为课程学习）。总体算法如图4所示。训练结束时，该模型可以有效地利用自己的预测，并与测试时的使用保持一致。

图4：MIXER的示意图。在最初的s展开步骤（此处s = 1）中，网络类似于XENT训练的标准RNN。在其余步骤中，每个模块的输入都是来自上一时间步骤产生的单词分布的样本。一旦到达句子的结尾（或最大序列长度），就计算奖励，例如BLEU。然后使用REINFORCE通过采样器序列反向传播梯度。我们在s上使用退火时间表，从s等于最大序列长度T开始，以s = 1结束。

4 实验

在我们所有的实验中，我们通过将条件RNN展开到一定的最大长度来训练它们。我们选择此长度以覆盖我们考虑的数据集中约95％的目标句子。剩余的句子将裁剪为所选的最大长度。为了进行训练，我们使用随机梯度下降和大小为32的小批处理，并在每个序列的开始处重置隐藏状态。在更新参数之前，如果梯度的范数大于10，我们会重新缩放它们（Mikolov等，2010）。我们使用保留的验证集搜索超参数的值，例如初始学习率，各种调度参数，时期数等。然后，我们采用在验证集上表现最佳的模型，并在测试集上计算BLEU或ROUGE得分。在以下各节中，我们仅报告测试集中的结果。贪婪生成是通过在每个时间步中采用最可能的单词来执行的。

4.1 文本摘要

我们考虑抽象摘要的问题，其中，给定一段源文本，我们的目标是生成其摘要（目标文本），使其意义是完整的。我们用来训练和评估模型的数据集由Gigaword语料库的一个子集（Graff等人，2003）组成，如Rush等人（2015）所述。这是过去二十年来从不同来源收集的新闻文章。我们的版本被组织成一组示例对，每一对由新闻文章的第一句（源句）和相应的标题（目标句）组成。我们以与中相同的方式对数据进行预处理（Rush et al.，2015），其中包括降低大小写并用<unk>表示的特殊标记替换不常出现的单词。经过预处理，源词典中有12321个单字，目标词典中有6828个单字。训练集、验证集和测试集的样本对数分别为179414、22568和22259。目标标题的平均序列长度约为10个单词。我们考虑了最多15个单词的序列，以符合我们的初始限制，即至少覆盖95%的数据。

我们的生成模型是带有128个隐藏单元的条件Elman RNN（等式3），其中条件向量ct由卷积注意编码器提供，类似于Rush等人的3.2节中所述（2015年），并受到Bahdanau等人的启发（2015）。补充材料的第6.2节中提到了我们的细心编码器的详细信息。我们也尝试将LSTM作为我们的任务的生成模型，但是并没有提高性能。我们推测这是由于该数据集中的目标句子很短的事实。

4.2 机器翻译

对于翻译任务，我们的生成模型是一个包含256个隐藏单元的LSTM，它使用了与摘要相同的仔细编码结构。我们使用的数据来自IWSLT 2014评估活动的德语-英语机器翻译跟踪（Cettolo et al.，2014）。语料库由TED和TEDx演讲的对句字幕组成。我们使用Moses工具箱（Koehn et al.，2007）的标记器对训练数据进行预处理，删除超过50个单词的句子和大小写。训练数据包括约153000个句子，其中英语句子平均长度为17:5个单词，德语句子平均长度为18:5个单词。为了保留至少95%的数据，我们将RNN展开了25个步骤。我们的验证集由6969个句子对组成，这些句子对取自训练数据。测试集是dev2010、dev2012、tst2010、tst2011和tst2012的串联，产生6750个句子对。英语词典有22822个单词，德语词典有32009个单词。

4.3 图像字幕

对于图像字幕任务，我们使用MSCOCO数据集（Lin等人，2014）。我们使用了作者提供的整个训练集，它由大约80k个图像组成。然后我们选取原始的验证集（由大约40k个图像组成），随机抽取5000个图像进行验证（不需要替换），再抽取5000个图像进行测试。每张图片有5种不同的标题。在训练时，我们对其中一个字幕进行采样，而在测试时，我们报告五个字幕的最大BLEU分数。上下文由在Imagenet数据集上训练的卷积神经网络（CNN）提取的1024个特征表示（Deng等人，2009）；我们不通过这些特征反向传播。我们使用了类似的实验装置，如Bengio等人（2015）所述。RNN是具有512个隐藏单元的单层LSTM，图像特征作为序列中的第一个字提供给生成模型。我们通过降低所有单词的大小写并用一个特殊的标记替换出现少于3次的所有单词来预处理字幕。因此，我们的数据集中的唯一单词总数是10012。记住95%规则，我们将RNN展开15步。

4.4 结果

为了验证MIXER，我们在机器翻译和图像字幕任务上计算了BLEU分数，在摘要任务上计算了ROUGE。提供给系统的输入仅仅是上下文和句子标记的开头。我们也将相同的协议应用于基准方法。测试集的分数记录在图5中。

我们观察到，在所有任务中，MIXER产生的代数最多，并且比XENT产生的代数提高了1-3点。不幸的是，端到端方法并没有证明是非常有效的。与将一系列离散决策转换为适合于错误的标准反向传播的可区分过程相比，在序列级别进行训练并直接优化测试分数可以产生更好的生成效果。DAD通常优于XENT，但不及MIXER。

总体而言，这些实验证明了针对测试时使用的指标进行优化的重要性。概括地说，用ROUGE训练的XENT和MIXER在BLEU方面表现不佳（8.16和5.80，而用BLEU训练的MIXER为9.32）；同样，用BLEU训练的MIXER在训练时也没有达到优化ROUGE的MIXER ROUGE得分（15.1对16.22，另请参见补充材料中的图8）。

接下来，我们尝试了beam search。图6中的结果表明，包括MIXER在内的所有方法都可以通过使用beam search来提高其生成质量。但是，改进的程度很大程度上取决于任务。我们观察到，在三项任务中的两项中，使用beam search的基线无法匹配MIXER的贪婪性能（即没有beam search）。而且，由于MIXER仅依赖贪婪搜索，因此速度要快几倍。

值得一提的是，REINFORCE基准不适用于这些应用程序。通过随机策略进行探索几乎没有成功的机会。由于我们无法在合理的时间内使其收敛，因此我们不予报告。在没有增量学习的情况下使用混合XENT-REINFORCE损失也不足以使训练从随机机会中脱身。为了深入了解哪种时间表有效，我们在补充材料的表2中报告了在MIXER的超参数上进行网格搜索后发现的最佳值。最后，我们在补充材料的图7中报告了MIXER生成的一些轶事示例。

5 总结

我们的工作是基于两个主要的不足，在训练目前的生成模型的文本生成：暴露偏见和损失，不运作的序列水平。虽然强化学习可以潜在地解决这些问题，但当存在非常大的动作空间时，它会遇到困难，例如在文本生成中。为此，我们提出了MIXER算法，解决了这些问题，并成功地训练了文本生成的强化学习模型。我们通过用交叉熵训练模型的最优策略代替初始随机策略，并在增量学习框架中逐渐使模型越来越多地暴露于它自己的预测来实现这一点。

结果表明，混合算法在贪婪生成中优于三种强基线算法，并且与波束搜索算法具有很好的竞争优势。我们提出的方法是与潜在的模型或奖励功能的形式无关的。在未来的工作中，我们希望设计出更好的平均奖励的估计技术，因为糟糕的估计会导致增强和混合的收敛速度变慢。最后，我们的训练算法依赖于单个样本，而研究更全面的搜索方法在训练时的效果将是很有趣的。