理解RNN：从Elman到LSTM-CSDN博客

本文链接：https://blog.csdn.net/Baigker/article/details/119299283

本文深入介绍了循环神经网络（RNN），包括Elman Network、Jordan Network、双向RNN和LSTM的工作原理。RNN在处理序列数据时能够存储上下文信息，但训练过程中面临梯度消失和爆炸的问题。LSTM通过门控机制缓解了这些问题，而GRU则简化了LSTM结构。此外，文章还探讨了RNN在Many-to-One、Many-to-Many任务中的应用，并对比了RNN与结构化学习的区别和结合方式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

RNN

什么是RNN（Recurrent Neural Network）

在之前的所提到的NN，比如CNN，都是没有记忆性的。但如果我们要求NN能处理上下文的信息，比如下面的航空检票系统：
在这里插入图片描述
每次输入一条信息，我们想知道每个单词是属于哪一类（slot），即：构建一个NN，输出每个单词属于每个slot的概率。
在第一条信息时，我们已经知道了Taipei是dest，因此在处理第二条信息我们要能使用这一信息。
这就要求NN有存储功能。这就是RNN的核心。

Elman Network

在这里插入图片描述

实际的操作并不复杂：在一些神经处有会有一个存储值，每次操作得到新的值后将其存储起来，留到下次使用。
那回到航空检票系统，做法也和上例类似。看似是用了三个神经元，实际上是一个神经元用了三次，大大减少了开支。
在这里插入图片描述
在处理第二条信息时，就会发现：同样的输入可能会有不同的输出。

Jordan Network

在这里插入图片描述
Elman Network存储的是神经元的值，而Jordan Network存储的是Output的值。通常效果更好。

Bidirectional RNN

RNN也可以双向训练。
在这里插入图片描述

LSTM（Long Short-term Memory）

LSTM的基本架构由3个gate和1个Memory组成，如下图：
在这里插入图片描述

Input Gate：由NN产生一个 $z_i$ ，得到 $f(z_i)=0\ or\ 1$ ，决定输入的值 $z$ 是否能进入LSTM。
Forget Gate：由NN产生一个 $z_f$ ，得到 $f(z_f)=0\ or\ 1$ ，决定是否遗忘原本存储的值 $c$ 。
Output Gate：由NN产生一个 $z_o$ ，得到 $f(z_o)=0\ or\ 1$ ，决定输入的值 $z$ 是否能进入LSTM

LSTM的参数是普通神经网络的四倍，一个简单的例子如下：
在这里插入图片描述

输入Xt先经过线性转化为4个vector组成的 $z$ 。C是memory的vector。h是上一个LSTM神经元隐层的输出。

RNN的Learning

如何训练RNN

Loss Function：对每个输入, 其输出的与相应的reference vector计算cross entropy, cross entropy之和就是loss function
训练方法：Gradient Descent，具体而言是BPTT（不细讲）。
在这里插入图片描述
但出现了一个问题：