论文:Attention-Based Recurrent Neural Network Models for Joint Intent Detection

本文介绍了一种基于attention机制的RNN模型,用于意图识别和槽位填充的联合学习。模型通过双向RNN编码器捕获输入文本的双向信息,并在解码器中利用注意力机制,使模型能够关注输入序列中不同部分,从而改善了序列标注任务的性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Attention-Based Recurrent Neural Network Models for Joint Intent Detection
基于attention的encoder-decoder神经网络模型在机器翻译领域取得成功,本文将该模型用于意图识别和槽位填充的联合学习。由于槽位填充任务不像机器翻译任务,槽位填充中输入文本和输出标签的对齐是明确的,文中探索了不同的方法,将对齐信息融入到模型中。另外,在基于attention的encoder-decoder的模型的基础上,进一步提出一种结合了注意力机制和对齐的RNN模型。

Encoder-Decoder Model with Aligned Inputs

encoder从两个方向读取句子序列,前向RNN按句子的正序读取,在每个step生成一个隐藏状态hf, 反向RNN按句子的逆序读取,在每个step生成一个隐藏状态hb,最终encoder中每个step的隐藏状态为正向和逆向的隐藏状态的拼接。将正序和逆序rnn的最后一个step的隐藏状态拼接,作为decoder第一个step的隐藏状态。

在decoder中,每个step的隐藏状态由decoder前一个时刻的隐藏状态、上一个时刻的预测输出、encoder的对应的隐藏状态、上下文向量决定,计算如下:

上下文向量由encoder的各个时刻的隐藏状态加权求和得到:

上下文向量给decoder提供了额外的信息,也可以看作是encoder的隐藏转态特征的加权continuous bag。

Attention-Based RNN Model

在用于序列标注的双向RNN中,每个时间步的隐藏状态都携带着整个句子的信息,但是信息可能会随着前向和后向传播的过程中逐渐丢失。因此,在进行时隙标签预测时,我们不仅希望在每个步骤中仅使用对齐的隐藏状态,还希望查看是否使用上下文向量为我们提供了任何其他支持信息,尤其是那些需要长时依赖的未被隐藏转态捕获的信息。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值