LSTM结构

最新推荐文章于 2025-06-13 11:14:01 发布

原创

最新推荐文章于 2025-06-13 11:14:01 发布 · 1.9k 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能

在前面讲的【Deep learning】循环神经网络RNN中，我们对RNN模型做了总结。由于RNN也有梯度消失的问题，因此很难处理长序列的数据，大牛们对RNN做了改进，得到了RNN的特例LSTM（Long Short-Term Memory），它可以避免常规RNN的梯度消失，因此在工业界得到了广泛的应用。下面我们就对LSTM模型做一个总结。

1.从RNN到LSTM

其中上图是传统RNN结构框架，而下图为LSTM结构框架，对比两图可以发现LSTM比传统RNN要复杂得多。它也是一种特殊的循环体结构，拥有三个“门”结构的特殊网络结构：遗忘门、输入门和输出门。下面就将具体介绍每一种门都是怎么工作的。

2.遗忘门

遗忘门（forget gate）顾名思义，是控制是否遗忘的，在LSTM中即以一定的概率控制是否遗忘上一层的隐藏细胞状态。举个栗子，比如一段文章中先介绍了某地原来是绿水蓝天，但是后来被污染了。于是在看到被污染了之后，循环神经网络就会“忘记”了之前绿水蓝天的状态。这就是“遗忘门”工作内容。

遗忘门子结构如下图所示：

图中输入的有上一序列的隐藏状态h(t−1)和本序列数据x(t)，通过一个激活函数，一般是sigmoid，得到遗忘门的输出f(t)。由于sigmoid的输出f(t)在[0,1]之间，因此这里的输出f^{(t)}代表了遗忘上一层隐藏细胞状态的概率。用数学表达式即为：

$f^{(t)}=\sigma(W_fh^{(t-1)}+U_fx^{(t)}+b_f)$

其中Wf,Uf,bf为线性关系的系数和偏倚，和RNN中的类似。σ为sigmoid激活函数。

3.输入门

在RNN经历“遗忘门”之后，它还需要从当前的输入来补充最新的记忆，这就需要“输入门”来完成。

输入门（input gate）负责处理当前序列位置的输入，它的子结构如下图：

从图中可以看到输入门由两部分组成，第一部分使用了sigmoid激活函数，输出为i(t),第二部分使用了tanh激活函数，输出为a(t), 两者的结果后面会相乘再去更新细胞状态。用数学表达式即为：

$\begin{gathered} \begin{aligned}i^{(t)}=\sigma(W_ih^{(t-1)}+U_ix^{(t)}+b_i)\end{aligned} \\ a^{(t)}=tanh(W_ah^{(t-1)}+U_ax^{(t)}+b_a) \end{gathered}$