指针生成网络(PGN)的简单总结

本文链接：https://blog.csdn.net/weixin_42267196/article/details/109073311

本文介绍了基于RNN的Seq2Seq模型在文本生成中的应用及其局限，如事实复制错误、OOV处理和重复内容。为了解决这些问题，文章提出了Pointer Generator Network (PGN)，它结合了复制机制和注意力机制，有效地处理OOV并减少重复。此外，还引入了覆盖率机制来进一步防止重复单词。PGN的优势在于能够从原文复制词汇，但对未出现过的词汇仍存在挑战。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

基于RNN的seq2seq:

好处：用于文本生成，可以用于抽象总结。

坏处：不准确的复制事实细节；无法处理OOV；生成文本有重复倾向；长文本下效果效果倾向于language model

PGN分析：

通过指针从原文复制单词，有效处理OOV，保留产生新词的能力。通过COVERAGE机制对重复单词给予惩罚。

1. seq2seq with attention 过程

$input \ x = (x_1,x_2,...,x_{T_x})$

$output \ y = (y_1,y_2,...,y_{T_y})$

t时刻的enc_hidden: $h_t = RNN_{enc}(x_t,h_{t-1})$

t时刻的dec_hidden: $st=RNNdec(y^t−1,st−1)s_t = RNN_{dec}(\hat y_{t-1},s_{t-1})$

对于整个输入序列 $x_1...x_{T_x}$ ，上下文向量Context vector $ci=∑j=1Txαi,jhjc_i = \sum_{j=1}^{T_x} \alpha_{i,j}h_j$

$α\alpha$ 是 enc_hidden的权重: $αi,j=exp(ei,j)∑k=1Txexp(ei,k)=softmax(ei,)\alpha_{i,j} = \frac{exp(e_{i,j})}{\sum_{k=1}^{T_x}exp(e_{i,k})} = softmax(e_{i,})$ 即注意力得分的分布

注意力得分 : $e_{i,j} = score(s_i, h_j)=v^Ttanh(W_hh_j + W_ss_i + b_{attn})$ 由 dec_hidden 和 enc_hidden 得出，即每个词 $x_i$ 相对于 $y_j$ 的注意力得分

final dec_hidden $s^t=tanh(Wc[ct;st])\hat s_t = tanh(W_c[c_t;s_t])$

$p(yt∣y<t,x)=softmax(Ws,s^t)=Pvocab(w)p(y_t|y_{<t},x) = softmax(W_s,\hat s_t) = P_{vocab}(w)$

时间步长t的损失 $loss_t = -logP(y_t|y_{<t},x)$

整个序列损失 $loss=1T∑t=0Tlosstloss=\frac{1}{T}\sum_{t=0}^Tloss_t$

一句话描述整个流程：
计算t时刻的概率分布：
encoder端的hidden与t时刻decoder的hidden通过score function计算得到encoder端每个词在t时刻的注意力得分，该得分经过softmax即为注意力分布，该注意力分布与encoder端的hiddent相乘即为上下文向量context vector，这个context vector与t时刻旧的decoder hidden通过全连接层生成新的t时刻 decoder hidden用于计t时刻最后的概率分布。这个新的hidden也用于传入下一时刻的deocder