吴恩达深度学习笔记(36)-神经网络的梯度消失/梯度爆炸

最新推荐文章于 2024-10-07 15:58:59 发布

极客Array

最新推荐文章于 2024-10-07 15:58:59 发布

阅读量1k

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习吴恩达深度学习笔记文章标签：吴恩达梯度消失梯度爆炸

本文链接：https://blog.csdn.net/Harpoon_fly/article/details/85219329

本文探讨了深度神经网络训练过程中遇到的梯度消失和梯度爆炸问题，通过实例解释了权重矩阵如何影响激活函数的输出，展示在网络层数增加时，激活函数值可能指数级增长或下降，从而导致训练难度加大。此外，文章指出，尽管这个问题曾阻碍深度神经网络的训练，但现在已有初始化权重的方法对此有所缓解。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

梯度消失/梯度爆炸（Vanishing / Exploding gradients）
训练神经网络，尤其是深度神经所面临的一个问题就是梯度消失或梯度爆炸，也就是你训练神经网络的时候，导数或坡度有时会变得非常大，或者非常小，甚至于以指数方式变小，这加大了训练的难度。

这节课，你将会了解梯度消失或梯度爆炸的真正含义，以及如何更明智地选择随机初始化权重，从而避免这个问题。

假设你正在训练这样一个极深的神经网络，为了节约幻灯片上的空间，我画的神经网络每层只有两个隐藏单元，但它可能含有更多，但这个神经网络会有参数W^([1])，W([2])，W^{([3])等等，直到W}([l])，为了简单起见，假设我们使用激活函数g(z)=z，也就是线性激活函数，我们忽略b，假设b^([l])=0，如果那样的话，输出：
在这里插入图片描述

如果你想考验我的数学水平，W^([1]) x=z^{([1])，因为b=0，所以我想z}([1])=W^([1]) x，a^([1])=g(z([1]))，因为我们使用了一个线性激活函数，它等于z^{([1])，所以第一项W}([1]) x=a^{([1])，通过推理，你会得出W}([2]) W^([1]) x=

最低0.47元/天解锁文章