Attention-Based Recurrent Neural Network Models for Joint Intent Detection
基于attention的encoder-decoder神经网络模型在机器翻译领域取得成功,本文将该模型用于意图识别和槽位填充的联合学习。由于槽位填充任务不像机器翻译任务,槽位填充中输入文本和输出标签的对齐是明确的,文中探索了不同的方法,将对齐信息融入到模型中。另外,在基于attention的encoder-decoder的模型的基础上,进一步提出一种结合了注意力机制和对齐的RNN模型。
Encoder-Decoder Model with Aligned Inputs
encoder从两个方向读取句子序列,前向RNN按句子的正序读取,在每个step生成一个隐藏状态hf, 反向RNN按句子的逆序读取,在每个step生成一个隐藏状态hb,最终encoder中每个step的隐藏状态为正向和逆向的隐藏状态的拼接。将正序和逆序rnn的最后一个step的隐藏状态拼接,作为decoder第一个step的隐藏状态。
在decoder中,每个step的隐藏状态由decoder前一个时刻的隐藏状态、上一个时刻的预测输出、encoder的对应的隐藏状态、上下文向量决定,计算如下:
上下文向量由encoder的各个时刻的隐藏状态加权求和得到:
上下文向量给decoder提供了额外的信息,也可以看作是encoder的隐藏转态特征
的加权continuous bag。
Attention-Based RNN Model
在用于序列标注的双向RNN中,每个时间步的隐藏状态都携带着整个句子的信息,但是信息可能会随着前向和后向传播的过程中逐渐丢失。因此,在进行时隙标签预测时,我们不仅希望在每个步骤中仅使用对齐的隐藏状态,还希望查看是否使用上下文向量
为我们提供了任何其他支持信息,尤其是那些需要长时依赖的未被隐藏转态捕获的信息。