【小白学AI系列】NLP 核心知识点(四)LSTM(长短期记忆网络)

LSTM(长短期记忆网络)

定义:

LSTM 是一种特殊的 RNN,具有记忆能力,可以长时间保持信息,并且能够决定在每个时刻要保留多少过去的信息,丢弃哪些无关的信息。与传统的 RNN 相比,LSTM 的关键在于它的“门控机制”,这使得 LSTM 在处理长序列数据时更具优势,能够避免梯度消失的问题。

历史来源:

LSTM 是由 Sepp HochreiterJürgen Schmidhuber 在 1997 年提出的。传统的 RNN 在训练时容易出现梯度消失或梯度爆炸的问题,导致在长序列中,早期的输入信息无法有效地传递到后面的时间步。LSTM 通过设计专门的门结构(输入门、遗忘门、输出门)来控制信息的流动,从而解决了这一问题,提升了 RNN 在长时间序列上的表现。

工作原理:

LSTM 核心思想是引入了“记忆单元”和“门控结构”来控制信息的保留和遗忘,整个网络通过三个门来进行信息的选择性保留和更新:

  • 遗忘门(Forget Gate):决定遗忘哪些信息。通过 Sigmoid 函数来输出一个0到1之间的值,0表示完全丢弃,1表示完全保留。
  • 输入门(Input Gate):决定当前输入的哪些信息将被加入到记忆单元中。通过 Sigmoid 函数控制哪些信息被更新,Tanh 函数生成新的候选值。
  • 输出门(Output Gate):决定最终输出哪些信息。输出的结果是当前记忆单元内容的一个过滤版本。

数学公式:

LSTM 的数学公式可以通过以下几步来描述:

  1. 遗忘门(Forget Gate)
    ft=σ(Wf⋅[ht−1,xt]+bf) f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f) ft=σ(Wf[ht1,xt]+bf)
    其中:
    ftf_t ft是遗忘门的输出(值介于 0 和 1 之间)。
    Wf和bf W_f 和 b_f W

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值