梯度下降优化器

最新推荐文章于 2025-03-05 21:43:32 发布

EversChen5

最新推荐文章于 2025-03-05 21:43:32 发布

阅读量1.4k

点赞数

CC 4.0 BY-SA版权

文章标签： tensorflow optimizer

本文链接：https://blog.csdn.net/ip5108/article/details/88560076

本文介绍了多种梯度下降优化器，包括Momentum、NAG、Adagrad、Adadelta、RMSprop和Adam。阐述了各优化器的原理、优缺点，比较了它们在鞍点和等高线上的表现。指出自适应学习率方法在特定情景下更合适，还给出了选择优化算法的建议，如数据稀疏时可用自适应方法，Adam通常是较好选择。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

梯度下降优化器

Momentum

如果在峡谷地区(某些方向较另一些方向上陡峭得多，常见于局部极值点)，SGD会在这些地方附近振荡，从而导致收敛速度慢。这种情况下，动量(Momentum)便可以解决。动量在参数更新项中加上一次更新量(即动量项),即：

$ν_{t}$ = $γνt−1\gammaν_{t−1}$ + η $_{θ}$ J(θ)

θ = θ − $ν_{t}$

其中动量项超参数 $γ\gamma$ <1 一般是小于等于0.9。

其作用如下图所示：
without_momentum
图1 没有动量
with_momentum
图2 加上动量

加上动量项就像从山顶滚下一个球，求往下滚的时候累积了前面的动量(动量不断增加)，因此速度变得越来越快，直到到达终点。同理，在更新模型参数时，对于那些当前的梯度方向与上一次梯度方向相同的参数，那么进行加强，即这些方向上更快了；对于那些当前的梯度方向与上一次梯度方向不同的参数，那么进行削减，即这些方向上减慢了。因此可以获得更快的收敛速度与减少振荡。

NAG(Nesterov accelerated gradient 涅斯捷罗夫梯度加速)

从山顶往下滚的球会盲目地选择斜坡。更好的方式应该是在遇到倾斜向上之前应该减慢速度。
Nesterov accelerated gradient(NAG,涅斯捷罗夫梯度加速)不仅增加了动量项，并且在计算参数的梯度时，在损失函数中减去了动量项，即计算 $_{θ}$ J(θ- $γνt−1\gammaν_{t−1}$ )，这种方式预估了下一次参数所在的位置。用 θ - $γνt−1\gammaν_{t−1}$ 来近似当做参数下一步会变成的值，则在计算梯度时，不是在当前位置，而是未来的位置上。即：

$ν_{t}$ = $γνt−1\gammaν_{t−1}$ + η $_{θ}$ J(θ - $γνt−1\gammaν_{t−1}$ )

θ = θ − $ν_{t}$

如下图所示：
在这里插入图片描述
图3 NAG更新

蓝色是 Momentum 的过程，会先计算当前的梯度，然后在更新后的累积梯度后会有一个大的跳跃。而 NAG 会先在前一步的累积梯度上(brown vector)有一个大的跳跃，然后衡量一下梯度做一下修正(red vector)，这种预期的更新可以避免我们走的太快。
J(θ)是当前的梯度；
J(θ - $γνt−1\gammaν_{t−1}$ ) 是参数更新后的梯度的近似值；
因为有动量，所以θ每次值更新会大的多，如果按θ更新前的梯度计算，也就是J(θ)，会和更新后的梯度J(θ - $γνt−1\gammaν_{t−1}$ )差值拉大（因为动量使更新前后两个θ差距变大，同时导致更新前后的梯度值也明显有差异）。所以使用θ更新后的梯度会更接近下一次的梯度值。
通过上面的两种方法，可以做到每次学习过程中能够根据损失函数的斜率做到自适应更新来加速SGD的收敛。下一步便需要对每个参数根据参数的重要性进行各自自适应更新。

Adagrad

Adagrad也是一种基于梯度的优化算法，它能够对每个参数自适应不同的学习速率，对稀疏特征，得到大的学习更新，对非稀疏特征，得到较小的学习更新，因此该优化算法适合处理稀疏特征数据。Dean等发现Adagrad能够很好的提高SGD的鲁棒性，google便用起来训练大规模神经网络(看片识猫:recognize cats in Youtube videos)。Pennington等在GloVe中便使用Adagrad来训练得到词向量(Word Embeddings), 频繁出现的单词赋予较小的更新，不经常出现的单词则赋予较大的更新。
在前述中，每个模型参数θi使用相同的学习速率η，而Adagrad在每一个更新步骤中对于每一个模型参数 $θ_{i}$ 使用不同的学习速率 $η_{i}$ ，设第t次更新步骤中，目标函数的参数 $θ_{i}$ 梯度为 $g_{t,i}$ ，即：

$g_{t,i}$ = $_{θ}$ J( $θ_{i}$ )

那么SGD更新方程为：

$θ_{t+1,i}$ = $θ_{t,i}$ − η⋅ $g_{t,i}$

而Adagrad对每一个参数使用不同的学习速率，其更新方程为：

$θ_{t+1,i}$ = $θ_{t,i}$ − $ηGt,ii+ϵ\frac{η}{\sqrt[]{G_{t,ii}+ϵ}}$ ⋅ $g_{t,i}$

$e_{ii}$ = $gt,12g^2_{t,1}$ + $gt,22g^2_{t,2}$ + … + $gt,i2g^2_{t,i}$

其中， $G_{t}$ ∈ $R^{d×d}$ 是一个对角矩阵，其中第i行的对角元素 $e_{ii}$ 为过去到当前第i个参数 $θ_{i}$ 的梯度的平方和， $ϵ\epsilon$ 是一个平滑参数，为了使得分母不为0(通常ϵ=1e−8)，另外如果分母不开根号，算法性能会很糟糕。

进一步，将所有 $G_{t,ii}$ , $g_{t,i}$ 的元素写成向量 $G_{t}$ , $g_{t}$ ，这样便可以使用向量点乘操作：

$θ_{t+1}$ = $θ_{t}$ − $ηGt+ϵ\frac{η}{\sqrt[]{G_{t}+ϵ}}$ ⊙ $g_{t}$

Adagrad主要优势在于它能够为每个参数自适应不同的学习速率，而一般的人工都是设定为0.01。同时其缺点在于需要计算参数梯度序列平方和，并且学习速率趋势是不断衰减最终达到一个非常小的值。下文中的Adadelta便是用来解决该问题的。

Adadelta

AdaDelta算法主要是为了解决AdaGrad算法中存在的缺陷，下面先介绍一下AdaGrad算法优点和以及存在的问题：

AdaGrad的迭代公式如下所示：

$θ_{t+1,i}$ = $θ_{t,i}$ − $η∑i=1tgi2+ϵ\frac{η}{\sqrt[]{\sum\limits_{i=1}^{t}g_i^2+ϵ}}$ ⋅ $g_{t,i}$

优点
学习率将随着梯度的倒数增长，也就是说较大梯度具有较小的学习率，而较小的梯度具有较大的学习率，可以解决普通的sgd方法中学习率一直不变的问题
缺点
还是需要自己手动指定初始学习率，而且由于分母中对历史梯度一直累加，学习率将逐渐下降至0，并且如果初始梯度很大的话，会导致整个训练过程的学习率一直很小，从而导致学习时间变长。

而AdaDelta算法的提出就是为了解决上述的问题，AdaDelta有两种解决方案：
改进方法一:Accumulate Over Window

在一个窗口w中对梯度进行求和，而不是对梯度一直累加
因为存放 w 之前的梯度是低效的，所以可以用对先前所有梯度均值（使用RMS即均方根值实现）的一个指数衰减作为代替的实现方法。

更新公式如下：
将累计梯度信息从全部历史梯度变为当前时间向前的一个窗口期内的累积：

$E[g^2]_t$ = $γ∗E[g2]t−1\gamma*E[g^2]_{t-1}$ + $(1−γ)∗gt2(1-\gamma)*g^2_t$
= $γt−1∗(1−γ)g12\gamma^{t-1}*(1-\gamma)g^2_1$ + $γt−2∗(1−γ)g22\gamma^{t-2}*(1-\gamma)g^2_2$ +…+ $γ∗(1−γ)gt−12\gamma*(1-\gamma)g^2_{t-1}$ + $(1−γ)∗gt2(1-\gamma)*g^2_t$

相当于历史梯度信息的累计乘上一个衰减系数 $γ\gamma$ ，然后用 $(1−γ)(1-\gamma)$ 作为当前梯度的平方加权系数相加。如果 $γ\gamma$ =0.9，那么越是前面的 $g12g^2_1$ , $g^2_2$ 的系数因为 $γ\gamma$ 的次数越大，所以会越小，所以值会越来越小。这就解决了AdaGrad历史梯度一直累加，学习率将逐渐下降至0的问题。

然后将上述 $E[g^2]_t$ 开方后，作为每次迭代更新后的学习率衰减系数：

$θ_{t+1,i}$ = $θ_{t,i}$ − $ηE[g2]t+ϵ\frac{η}{\sqrt[]{E[g^2]_t+ϵ}}$ ⋅ $g_{t,i}$

记 $RMS(gt)=E[g2]t+ϵRMS(g_t) = \sqrt[]{E[g^2]_t+ϵ}$

其中ϵ 是为了防止分母为0而加上的一个极小值。
这种更新方法解决了对历史梯度一直累加而导致学习率一直下降的问题，当时还是需要自己选择初始的学习率。

改进方法二：Correct Units with Hessian Approximation
通过牛顿法可以知道，牛顿法迭代步长是f’’(θ)一阶牛顿迭代公式为;

$θ_{t+1}$ = $θ_{t}$ − $f′(θ)f′′(θ)\frac{f'(θ)}{f''(θ)}$

可以看出牛顿算法的迭代步长是二阶近似的解析解，不需要我们手动指定学习率。
而高阶的牛顿法迭代的步长为Hessian 矩阵。
AdaDelta算法正是采用了这种思想，采用Hessian 矩阵的对角线近似Hessian矩阵。
公式如下所示：
Δθ ≈ $∂f∂θ∂2f∂θ2\frac{\frac{∂f}{∂θ}}{\frac{∂^2f}{∂θ^2}}$
于是有:

$Δθ∂f∂θ\frac{Δθ}{\frac{∂f}{∂θ}}$ = $1∂2f∂θ2\frac{1}{\frac{∂^2f}{∂θ^2}}$

而更新公式为：

$θ_{t+1}$ = $θ_{t}$ − $1∂2f∂θ2∗gt\frac{1}{\frac{∂^2f}{∂θ^2}}*g_t$ = $θ_{t}$ − $Δθ∂f∂θ∗gt\frac{Δθ}{\frac{∂f}{∂θ}}*g_t$

同理对分子分母按照上一个方法进行处理,可以得到以下公式：
其中假设x附近的曲率是平滑的，而 $θ_{t+1}可以近似θ_t$

Δθ = $RMS[Δθ]t−1RMS[g]t∗gt\frac{RMS[Δθ]_{t-1}}{RMS[g]_t}*g_t$

$θ_{t+1}$ = $θ_{t}$ − Δθ

其中 $g_t$ 为本次迭代的梯度

由于RMS RMSRMS永远为正，所以能保证更新的方向一直为梯度的负方向

分子作为一个加速项，作为动量在时间窗口w ww上积累先前的梯度。

下面是论文中的算法展示：

在这里插入图片描述

RMSprop

其实RMSprop是Adadelta的中间形式，也是为了降低Adagrad中学习速率衰减过快问题，即：
$E[g^2]_t$ = $γ∗E[g2]t−1\gamma*E[g^2]_{t-1}$ + $(1−γ)∗gt2(1-\gamma)*g^2_t$
= $γt−1∗(1−γ)g12\gamma^{t-1}*(1-\gamma)g^2_1$ + $γt−2∗(1−γ)g22\gamma^{t-2}*(1-\gamma)g^2_2$ +…+ $γ∗(1−γ)gt−12\gamma*(1-\gamma)g^2_{t-1}$ + $(1−γ)∗gt2(1-\gamma)*g^2_t$