SGD vs Adam：深度学习优化器的原理

不完美的代码

于 2025-08-06 10:31:04 发布

阅读量357

点赞数 9

CC 4.0 BY-SA版权

文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/qq_45464126/article/details/149907797

在深度学习的训练过程中，优化器就像一辆“动力引擎”——它决定了模型参数更新的路径和效率。今天我们就来聊聊深度学习中最常用的两位“选手”：SGD（随机梯度下降）和Adam（自适应矩估计）。本文将从原理、优缺点到实际应用，带你彻底搞懂这两个优化器的区别与选择逻辑。

一、为什么需要优化器？先理解“梯度下降”

在聊SGD和Adam之前，得先明白“梯度下降（Gradient Descent, GD）”的核心思想。想象你站在山顶，想要最快到达山脚——梯度就是“当前位置最陡的下山方向”，而学习率（Learning Rate）则是“每一步的步长”。梯度下降的本质就是沿着梯度的反方向（即函数下降最快的方向）不断更新参数，直到找到损失函数的最低点（局部或全局最优）。

但传统的 批量梯度下降（Batch GD） 有个致命问题：每次更新参数都要计算整个数据集的梯度。当数据量达到百万级甚至亿级时，计算成本高到离谱（比如ImageNet有120万张图片，每次迭代都要遍历所有图片？工程师会疯掉的！）。

于是，随机梯度下降（SGD）应运而生——它每次只随机选取一个样本计算梯度，用“单个样本的噪声梯度”近似“整体数据的平均梯度”。虽然噪声大，但胜在计算快，能在大数据集上高效训练。后来，人们又改进出小批量梯度下降（Mini-batch SGD），每次用一个小批量（比如32、64个样本）的梯度，平衡了噪声和计算效率，这也成了现代深度学习的标配。

二、SGD：经典永不过时的“稳扎稳打派”

1. SGD的数学原理

Mini-batch SGD的参数更新公式非常简洁：
$\theta_{t+1} = \theta_t - \eta \cdot \nabla L(\theta_t; x_i, y_i)$
其中：

$θt\theta_t$ 是第 $t$ 轮的参数；
$η\eta$ 是学习率（步长）；
$∇L(θt;xi,yi)\nabla L(\theta_t; x_i, y_i)$ 是单个样本 $x_i, y_i)$ 的损失梯度。

简单来说，SGD每一步都“随机抓一把数据”，算它们的平均梯度，然后沿着反方向迈一步。

2. SGD的优缺点

优点：

计算高效：小批量计算梯度，适合大规模数据集；
理论收敛性强：在凸函数（如线性回归）中，只要学习率逐渐减小（如 $ηt=1/t\eta_t = 1/\sqrt{t}$ ），SGD能严格收敛到全局最优；
泛化性好：噪声梯度相当于“隐式正则化”，不容易陷入局部极小值（尤其在非凸问题中，可能跳出尖锐的局部最优，找到更平坦的全局最优）。

缺点：

收敛速度慢：噪声梯度导致路径曲折，尤其在损失函数曲率变化大的区域（比如峡谷地形），可能需要更多轮次（epoch）才能收敛；
依赖学习率调参：学习率太大容易震荡，太小则收敛缓慢。传统SGD需要手动设计学习率调度策略（如阶梯下降、余弦退火），对新手不太友好。

3. SGD的经典应用场景

SGD适合小批量、强泛化需求的任务，例如：

小数据集（如医学影像数据，样本量只有几千）；
对模型泛化能力要求高的场景（如图像分类中的细粒度分类）；
需要精细调优的后期训练（用SGD微调预训练模型，往往能提升精度）。

三、Adam：自适应学习的“全能型选手”

SGD虽然经典，但在深层网络（如ResNet、Transformer）训练中，人们发现它的“稳扎稳打”反而成了缺点——深层网络的损失函数曲面复杂（曲率变化剧烈），SGD的噪声梯度容易导致收敛缓慢。于是，**Adam（2015年提出）**结合了动量（Momentum）和RMSProp的思想，用“自适应学习率”彻底改变了训练效率。

1. Adam的数学原理：动量+自适应学习率

Adam的核心是同时跟踪梯度的一阶矩（均值，Momentum）和二阶矩（方差，RMSProp），并为每个参数自适应调整学习率。具体步骤如下：

（1）计算梯度的一阶矩（动量项）

$m_t = \beta_1 m_{t-1} + (1-\beta_1) g_t$
其中， $g_t$ 是当前批量的梯度， $β1\beta_1$ 是动量衰减系数（通常取0.9）， $m_t$ 是梯度的指数移动平均（类似“惯性”，让参数更新方向更稳定）。

（2）计算梯度的二阶矩（自适应学习率项）

$v_t = \beta_2 v_{t-1} + (1-\beta_2) g_t^2$
其中， $β2\beta_2$ 是二阶矩衰减系数（通常取0.999）， $v_t$ 是梯度平方的指数移动平均（衡量梯度的波动幅度，用于调整学习率）。

（3）修正偏差（Bias Correction）

由于初始时 $m_0=0$ 、 $v_0=0$ ，前几轮的 $m_t$ 和 $v_t$ 会偏向于0。因此需要修正：
$m^t=mt1−β1t,v^t=vt1−β2t \hat{m}_t = \frac{m_t}{1-\beta_1^t}, \quad \hat{v}_t = \frac{v_t}{1-\beta_2^t}$

（4）参数更新

$θt+1=θt−η⋅m^tv^t+ϵ \theta_{t+1} = \theta_t - \eta \cdot \frac{\hat{m}_t}{\sqrt{\hat{v}_t} + \epsilon}$
其中， $ϵ\epsilon$ 是防止除零的小常数（如 $1 e - 8$ ）。

简单来说，Adam为每个参数计算了一个“自适应学习率”：如果某个参数的梯度均值大（ $m^t\hat{m}_t$ 大）且波动小（ $v^t\hat{v}_t$ 小），说明这个参数需要更大的更新步长；反之则需要更小的步长。

2. Adam的优缺点

优点：

收敛速度快：动量项缓解了梯度噪声问题，自适应学习率让参数更新更高效，尤其在深层网络中，通常比SGD收敛快2-5倍；
无需手动调参：默认参数（ $η=0.001,β1=0.9,β2=0.999\eta=0.001, \beta_1=0.9, \beta_2=0.999$ ）在大多数任务中表现良好，对新手友好；
适应复杂曲面：自适应学习率能自动处理“峡谷”（曲率变化大）或“平原”（梯度小）地形，避免SGD的震荡或停滞。

缺点：

泛化性可能不足：自适应学习率可能导致模型陷入尖锐的局部极小值（尤其是在小数据集上），后期精度可能不如SGD；
内存占用稍高：需要存储一阶矩和二阶矩的动量变量（每个参数多存两个张量），但对现代GPU来说影响不大；
超参数敏感：虽然默认参数好用，但某些任务（如强化学习）可能需要调整 $β1\beta_1$ 、 $β2\beta_2$ 或学习率。

3. Adam的经典应用场景

Adam适合大规模数据、深层网络、快速收敛需求的任务，例如：

计算机视觉（ResNet、ViT训练）；
自然语言处理（Transformer、BERT预训练）；
需要快速迭代的实验（如模型原型设计）。

四、SGD vs Adam：如何选择？

说了这么多，到底该用SGD还是Adam？我们可以通过一张对比表快速总结：

维度	SGD	Adam
收敛速度	慢（需配合学习率调度）	快（尤其训练初期）
泛化能力	强（噪声梯度相当于正则化）	可能较弱（自适应学习率易过拟合）
学习率调参	依赖（需手动调度）	不依赖（默认参数友好）
内存占用	低（仅存参数和梯度）	中（需存一阶/二阶矩）
适用场景	小数据集、强泛化需求、后期微调	大数据集、深层网络、快速收敛