概念
LSTM:长短期记忆细胞神经网络
长短期记忆网络是一种时间递归神经网络,适合处理和预测时间序列中间隔和延迟相对较长的重要事件。
使用遗忘门的LSTM适用于连续性的预测。
LSTM避免了RNN(循环神经网络)网络的梯度消失和梯度爆炸问题。
LSTM 使用记忆单元代替神经元。
组成
一个LSTM单元由一个记忆细胞 CtC_tCt 和三个门结构组成(输入门 iti_tit 、遗忘门 ftf_tft、输出门 oto_tot).
在 t 时刻,xtx_txt代表输入数据,hth_tht代表隐藏层。XXX代表向量外积,+++代表叠加运算。公式如下:
ft=σ(Ufxt+Wfht−1+bf)it=σ(Uixt+Wiht−1+bi)ut=tanh(Uuxt+Wuht−1+bu)ct=ft∗ct−1+it∗utot=σ(Uoxt+Woht−1+bo)ht=ot∗tanh(ct) \begin{aligned} &f_t = \sigma(U_fx_t + W_fh_{t-1}+ b_f)\\ &i_t = \sigma (U_ix_t+W_ih_{t-1}+b_i)\\ &u_t = \tanh(U_ux_t+W_uh_{t-1}+b_u)\\ &c_t = f_t*c_{t-1} + i_t * u_t \\ &o_t = \sigma(U_ox_t + W_oh_{t-1}+b_o)\\ &h_t = o_t * \tanh(c_t) \end{aligned}