转载地址:Written Memories: Understanding, Deriving and Extending the LSTM
这篇文章前半段讲得挺好的,尤其是梯度消失那一块,并没有从BPTT的角度解释;而是从状态变化近端远端相互影响的角度。文章后段充斥着各种引用,文字个人感觉不够精炼~~,非有精力和有时间的人不能细读。
转载地址:Written Memories: Understanding, Deriving and Extending the LSTM
这篇文章前半段讲得挺好的,尤其是梯度消失那一块,并没有从BPTT的角度解释;而是从状态变化近端远端相互影响的角度。文章后段充斥着各种引用,文字个人感觉不够精炼~~,非有精力和有时间的人不能细读。