梯度下降(Gradient Descent) 思想每一轮,求三组数据的梯度(变量为w)的平均值,梯度下降进行训练劣势:求均值后容易陷入“鞍点”,梯度为0,w不能继续训练至最优解 随机梯度下降(Stochastic Gradient Descent) 思想:每一轮,三组数据分别算梯度(变量为w),w不断进行训练,相当于每一轮w更新三次缺点:并行能力差,训练时间长解决方案:batch*(暂时还不太理解)* 对比分析: