机器学习（十二） - Backpropagation_机器学习训练是back propagation吗-CSDN博客

本文链接：https://blog.csdn.net/mike112223/article/details/75647246

Backpropagation

接着神经网络模型，我们开始讲讲神经网络是怎么训练参数的，那么首先就需要知道神经网络的代价函数是什么。

cost function

这里写图片描述
对于分类任务来说，神经网络的代价函数和逻辑回归的代价函数非常相似，神经网络前一项多的 $\sum_{k=1}^K$ 是因为多分类的关系，神经神经网络的输出是一个向量，那么有多少个分类，K就是多少。后一项是正则项，是对所有参数的惩罚，那么神经网络自然需要把每一层的权重矩阵的每一项都囊括进来，所以有了复杂的第二项，但其实本质都是一样的。

Backpropagation Algorithm

反向传递算法是神经网络更新参数，最小化代价函数的算法，这就类似于我们在线性回归和逻辑回归中用到的梯度下降算法一样。我们的目标是：
$\min_\theta J(\theta)$
参数更新方程是：
$\theta_{ij}^{(l)} := \theta_{ij}^{(l)} - \alpha\frac{\partial J(\theta)}{\partial\theta_{ij}^{(l)}}$
对于偏导数，我们运用链式法则，进行展开
$\frac{\partial J(\theta)}{\partial\theta_{ij}^{(l)}}= \frac{\partial J(\theta)}{\partial z_{i}^{(l+1)}} \frac{\partial z_{i}^{(l+1)}}{\partial\theta_{ij}^{(l)}}= \frac{\partial J(\theta)}{\partial z_{i}^{(l+1)}}a_j^{(l)}$
$a_j^{(l)}$ 是我们已知的参数，而 $\frac{\partial J(\theta)}{\partial z_{i}^{(l+1)}}$ 我们并不知道，于是对于这个未知参数，我们引入一个所谓的error变量 $\delta$ （残差）来表示，对于神经网络中除了输入层和bias，其余所有的神经元都有自己残差，表示为 $\delta_{i}^{l}$ (第 $l$ 层的第 $i$ 个元)。
输出层的残差，我们定义为：
$\delta_i^{(L)} = a_i^{(L)}-y_i$
对于隐藏层的每一层每一个节点，都有：
$KaTeX parse error: No such environment: align at position 7: \begin{̲a̲l̲i̲g̲n̲}̲ \delta_i^{(l)}…$
这个残差的计算方程就很好的体现了“反向”，我们需要先从输出层开始，然后利用上面的方程依次求得前一层每个节点的残差。求得了残差，我们就能进行参数更新了。
$\theta_{ij}^{(l)} := \theta_{ij}^{(l)} - \alpha \cdot \delta_i^{(l)} \cdot a_j^{(l)}$