【AI】求解器SGD、BGD、MBGD等详解

艺高机器人编程

于 2019-05-23 14:32:38 发布

阅读量2.6k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： AI 文章标签：深度学习机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010168781/article/details/90479999

AI 专栏收录该内容

116 篇文章 ¥69.90 ¥99.00

订阅专栏

本文详细介绍了深度学习中常见的优化器，包括批量梯度下降（BGD）、随机梯度下降（SGD）、小批量梯度下降（MBGD）、动量优化（Momentum）、NAG、Adagrad、Adadelta、RMSprop和Adam。针对不同求解器的优缺点进行了对比，解释了它们如何适应不同场景和数据集，为选择合适的优化算法提供了指导。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考博客：

***** 深度学习必备：随机梯度下降（SGD）优化算法及可视化：
**** 深度学习——优化器算法Optimizer详解（BGD、SGD、MBGD、Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam）：
***** 为什么说随机最速下降法 (SGD) 是一个很好的方法？：
}

一、概述

求解器（solver），也称为优化器。
对于优化算法，优化的目标是网络模型中的参数θ（是一个集合，θ1、θ2、θ3 …）。目标函数为损失函数L = 1/N ∑ Li （每个样本损失函数的叠加求均值）。
这个损失函数L变量就是θ，其中L中的参数是整个训练集，换句话说，目标函数（损失函数）是通过整个训练集来确定的，训练集全集不同，则损失函数的图像也不同。
那么为何在mini-batch中如果遇到鞍点/局部最小值点就无法进行优化了呢？因为在这些点上，L对于θ的梯度为零，换句话说，对θ每个分量求偏导数，带入训练集全集，导数为零。
对于SGD/MBGD而言，每次使用的损失函数只是通过这一个小批量的数据确定

了解本专栏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

艺高机器人编程 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。