在上一节课中,我们知道了要用损失对权重w求导,来更新权重
但在网络比较复杂时候,进行一个个求导运算已经太过于复杂,于是我们考虑能否把网络看成一幅图,在图上传播梯度,最终根据链式法则求出梯度
下图我们可以发现经过化简,无论多少层,都可以看成wx+b,这说明线性模型具有局限性
于是我们引入了非线性的激活函数,加了一个变换后,函数产生了变化就不能化简
下面是f=x*w具体的反向传播过程,L对z的偏导是上一步传递过来的不用管,L对x和L对w的偏导都是链式法则,带入进行运算,如果x前面还有值就继续向前传递
对于线性模型进行反向传播,求出L对w的偏导后,用梯度下降算法对权重进行更新。整体来看先进行正向的前馈过程,再走反向的过程
import torch
x_data = [1.0, 2.0, 3.0]
y_data = [2.0, 4.0, 6.0]
w = torch.Tensor([1.0]) # 以tensor变量把1赋值给w
w.requires_grad = True # w需要计算梯度
def forward(x):
return x * w # 线性模型
def loss(x, y):
y_pred = forward(x)
return (y_pred - y) ** 2 # 本质上在构建计算图,看到代码需要联想狗计算图
print("predict (before training)", 4, forward(4).item())
for epoch in range(100):
for x, y in zip(x_data, y_data):
l = loss(x, y) # 前馈过程秩序要计算loss
l.backward() # 这个方法会自动把计算链路上需要计算梯度的地方都求出梯度
print('\tgrad:', x, y, w.grad.item())
w.data = w.data - 0.01 * w.grad.data # 更新w,0.01为学习率,注意是grad.data,我们做纯数值修改要用w梯度的data
w.grad.data.zero_() # 把权重w梯度的数据都清0
print("progress:", epoch, l.item())
print("predict (after training)", 4, forward(4).item())