前言
数值稳定性,这个说起来简单但真正碰到确实一个非常难的问题,而且它十分的重要。
当神经网络在训练的过程中,碰到NAN
和inf
的时候,是最为恼火的,这严重地影响了训练。
有的时候,模型不断训练但没有结果也可能是数值稳定性问题。
次幂的恐怖
回想一些梯度求导的式子,采用的是链式求导法则,也就是说最终的结果是多个导数的乘积。
来计算两个式子:
1.250=9,100.43815000214977332758527534260.850=1.4272476927059598810582859694495e−5 1.2^{50}=9,100.4381500021497733275852753426 \newline 0.8^{50}=1.4272476927059598810582859694495e-5 1.2