用由loss function组成的cost function J来寻找最合适的w、b,从而降低J(w,b)
上图是gradient descent的本质:以J(w)为例,w更新就是不断用前一个w-(learning rate·导数)
这里要注意,导数用“dw”表示
如果是J(w,b)
用由loss function组成的cost function J来寻找最合适的w、b,从而降低J(w,b)
上图是gradient descent的本质:以J(w)为例,w更新就是不断用前一个w-(learning rate·导数)
这里要注意,导数用“dw”表示
如果是J(w,b)