LSTM是由每个cell组成的,每个cell里有3个门:输入门、遗忘门、输出门;每个cell有4个前馈网络层,其实就是4个激活函数,分别是σ、σ、tanh、σ;这些前馈网络层里有神经元,即隐藏神经元,每个前馈网络层里的隐藏神经元个数都是相同的,即num_units,也写作hidden_size 每个ht的向量维度即为hidden_size 当前时刻t的输入是xt,xt的维度是input_size,或input_dim,xt的维度是自己定义的,在NLP中就是词向量的维度,每一列(每一个xt)代表一个词向量。 在LSTM中,每时刻既要考虑当前的输入,也要考虑以往的信息,因此向cell中输入的是ht-1和xt的组合,组合方式是concat(结合),其实就是把两者直接拼起来,比如ht-1是128位,xt是28位,则输入向量是156位。 LSTM的公式是: 由上式可见,每个前馈网络层都有两个参数,W和b,权重参数W的维度是[hidden_size+input_size,hidden_size],b的维度是hidden_size,因此每个cell的维度是[hidd