【吴恩达深度学习笔记】2.1 深度学习实践方面Practical aspects of Deep Learning

最新推荐文章于 2024-07-18 15:32:38 发布

原创最新推荐文章于 2024-07-18 15:32:38 发布 · 381 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习

AI 同时被 2 个专栏收录

64 篇文章

订阅专栏

Deep Learning

45 篇文章

订阅专栏

第二门课改善深层神经网络：超参数调试、正则化以及优化（Improving Deep Neural Networks:Hyperparameter tuning,Regularization and Optimization）

1.1训练，验证，测试集（Train / Dev / Test sets）

训练数据通常划分为：

训练集（training set）：尝试不同的模型框架训练数据，
验证集（development set）：通过验证集或简单交叉验证集选择最好的算法模型
测试集（test set）：正确评估分类器的性能，对最终选定的神经网络系统做无偏估计

在机器学习发展的小数据量时代，一般60%训练集，20%验证集，20%测试集。大数据时代，验证集和测试集占数据总量的比例会趋于更小，一般小于数据总量的20%或10%。根据经验，建议确保验证集和测试集的数据来自同一分布。如果没有测试集也可以，一般训练集被称为测试集。在训练集上训练，尝试不同的模型框架，在验证集上评估这些模型，然后迭代并选出适用的模型。因为验证集中已经涵盖测试集数据，其不再提供无偏性能评估。

1.2偏差，方差（Bias / Variance）

高偏差（high bias）：数据欠拟合（underfitting）
高方差（high variance）:数据过度拟合（overfitting）
适度拟合（just right）
在这里插入图片描述

\	high variance	high bias	high bias&high variance	low bias&low variance
Train set error	1%	15%	15%	0.5%
Dev set error	11%	16%	30%	1%

1.3机器学习基础（Basic Recipe for Machine Learning）

在这里插入图片描述

高偏差和高方差是两种不同的情况，通常会用训练验证集来诊断算法是否存在偏差或方差问题，然后根据结果选择尝试部分方法。若算法存在高偏差问题增加训练数据也没用。
现在我们有工具可以做到在减少偏差或方差的同时，不对另一方产生过多不良影响。

1.4正则化（Regularization）

正则化可以避免过度拟合并减少神经网络的误差
$w$ 和 $b$ 是逻辑回归的两个参数， $w∈Rnxw\in \mathbb{R}^{n_x}$ 是多维度参数矢量， $b∈Rb\in \mathbb{R}$ 是一个实数，我们想要的是求成本函数的最小值，正则化表达式如下：

$J(w,b)=1m∑i=1mL(y^(i),y(i))+λ2m∥w∥22J(w,b)=\frac{1}{m}\sum^{m}_{i=1}L(\hat y^{(i)},y^{(i)})+\frac{\lambda}{2m}\left\| w\right\|^{2}_2$

$regularization:∥w∥22=∑j=1nxwj2=wTwL_2\space regularization:\left\| w\right\|^{2}_2=\sum^{n_x}_{j=1}w^{2}_j=w^Tw$

此方法利用了欧几里得范数（2范数），称为 $L 2$ 正则化。此处只正则化 $w$ 而不正则化 $b$ ，因为 $w$ 通常是高维参数矢量，已经可以表达高偏差问题，加了参数 $b$ 并没有什么影响。 $λ\lambda$ 也是一个超参数。

$regularization:λ2m∑j=1nx∣wj∣=λ2m∥w∥1L_1\space regularization:\frac{\lambda}{2m}\sum^{n_x}_{j=1}|w_j|=\frac{\lambda}{2m}\left\| w\right\|_1$

$L 1$ 正则化 $w$ 最终是稀疏的，即 $w$ 向量中有很多0，实际上这样也并没有降低太多的存储内存，一般在训练网络时选择 $L 2$ 正则化。

$J(w[1],b[1],...,w[L],b[L])=1m∑i=1mL(y^(i),y(i))+λ2m∑l=1L∥w[l]∥F2J(w^{[1]},b^{[1]},...,w^{[L]},b^{[L]})=\frac{1}{m}\sum^m_{i=1}L(\hat y^{(i)},y^{(i)})+\frac{\lambda}{2m}\sum^L_{l=1}\left\| w^{[l]}\right\|^{2}_F$

$∥w[l]∥F2=∑i=1nl−1∑j=1nl(wijl)2\left\| w^{[l]}\right\|^{2}_F=\sum^{n^{l-1}}_{i=1}\sum^{n^{l}}_{j=1}(w^{l}_{ij})^2$

$∥w[l]∥F2\left\| w^{[l]}\right\|^{2}_F$ 矩阵范数被称作“弗罗贝尼乌斯范数”，用下标 $F$ 标注，代表矩阵中所有元素的平方求和，其中 $W:(n^{[l-1]},n^{[l]})$ ， $l$ 为神经网络层数。

$backprop)+λmw[l]\frac{\partial J}{\partial w^{[l]}}=dw^{[l]}=(from\space backprop)+\frac{\lambda}{m}w^{[l]}$

$backprop)w^{[l]}:=w^{(l)}-\alpha dw^{[l]}=w^{(l)}-\alpha [(from\space backprop)+\frac{\lambda}{m}w^{[l]}]=w^{[l]}-\frac{\alpha \lambda}{m}w^{[l]}-\alpha(from\space backprop)$

矩阵 $W$ 前面的系数为 $(1−αλm)<1(1-\alpha \frac{\lambda}{m})<1$ ，因此 $L 2$ 正则化有时被称为“权重衰减”。

1.5为什么正则化有利于预防过拟合？（Why regularzation reduces overfitting?）

如果正则化 $λ\lambda$ 设置得足够大，权重矩阵 $W$ 就设置为接近0，此时大量的隐藏单元的影响就变得很小，神经网络变得更简单，这样更不容易发生过拟合。

对于 $t a n h$ 函数，如果 $λ\lambda$ 很大， $w^{[l]}$ 很小， $z$ 也会很小， $g (z)$ 大致呈线性，若每层都是线性的，整个神经网络就是线性网络，即使网络很深，也不适用于非常复杂的决策，即不会发生过拟合。

1.6dropout正则化（Dropout Regularization）

dropout（随机失活）正则化会遍历网络的每一层，并设置消除网络中节点的概率。

最常用的方法实施dropout，即Inverted dropout（反向随机失活），定义向量 $d$ ， $d^{[3]}$ 表示一个三层的dropout向量：

d3=np.random.rand(a3.shape[0],a3.shape[1])

判断 $d 3$ 是否小于keep-prob，keep-prob是一个具体的数字，表示保留某个隐藏单元的概率。若 $k e e p - p r o b = 0.8$ ，表示消除任意一个隐藏单元的概率是0.2， $d^{[3]}$ 是一个矩阵，每个样本和每个隐藏单元， $d^{[3]}$ 中对应值为1的概率为0.8，对应为0的概率为0.2。

从第三层中获取激活函数 $a^{[3]}$ :

a3=np.multiply(a3,d3) 或者a3 *= d3

最后向外扩展 $a^{[3]}$ ，以便不影响后面的期望值。

a3 /= keep-prob

1.7理解dropout（Understanding Dropout）

实施dropout的结果使它会压缩权重，并完成一些预防过拟合的外层正则化， $L 2$ 对不同权重的衰减是不同的，它取决于激活函数倍增的大小。

dropout一大缺点就是代价函数不再被明确定义，每次迭代都会随机移除一些节点。首先通常会关闭dropout函数，将keep-prob的值设为1，运行代码，确保J函数单调递减。然后打开dropout函数，希望在dropout过程中，代码并未引入bug。

1.8其他正则化方法（Other regularization methods）

数据扩增：翻转、旋转、扭曲图片以增大数据集
early stopping：在迭代过程和训练过程中 $w$ 的值会变得越来越大，通过early stopping在中间点停止迭代过程得到一个 $w$ 值中等大小的弗罗贝尼乌斯范数。

early stopping的主要缺点是不能独立地处理这两个问题，因为提早停止梯度下降，也就停止优化代价函数 $J$ ，所以代价函数 $J$ 的值可能不够小，同时又希望不出现过拟合，你没有采取不同的方式来解决这两个问题，而是用一种方法同时解决两个问题。如果不用early stopping，另一种方法就是 $L 2$ 正则化，训练神经网络的时间就可能很长，导致超参数搜索空间更容易分解，也更容易搜索，但是缺点在于必须尝试很多正则化参数 $λ\lambda$ 的值，这也导致搜索大量 $λ\lambda$ 值的计算代价太高。

1.9归一化输入（Normalizing inputs）

归一化输入可以加速训练，归一化需要两个步骤：

零均值化： $μ=1m∑i=1mx(i)\mu=\frac{1}{m}\sum^m_{i=1}x^{(i)}$ 是一个向量， $x$ 等于每个训练数据 $x$ 减去 $μ\mu$ ，即移动训练集直到完成零均值化。
归一化方差： $σ2=1m∑i=1m(x(i))2\sigma^2=\frac{1}{m}\sum^m_{i=1}(x^{(i)})^2$ ，所有数据除以向量 $σ2\sigma^2$ 使各特征方差差不多。

在这里插入图片描述
不论是训练数据还是测试数据都是通过相同 $μ\mu$ 和 $σ2\sigma^2$ 定义的相同数据转换，其中 $μ\mu$ 和 $σ2\sigma^2$ 是由训练集数据计算得来的。

归一化输入的原因：
在这里插入图片描述

1.10梯度消失/梯度爆炸（Vanishing / Exploding gradients）

训练神经网络时，深度神经网络通常会面临梯度消失或梯度爆炸的问题，就是导数或坡度有时会变得非常大或非常小，加大了训练难度。

1.11神经网络的权重初始化（Weight initialization for Deep Networks）

在一定程度上降低梯度消失/梯度爆炸的不利影响可以设置某层权重矩阵为：

$w[l]=np.random.rand(shape)∗np.sqrt(1n[l−1])w^{[l]}=np.random.rand(shape)*np.sqrt(\frac{1}{n^{[l-1]}})$

1.12梯度的数值逼近（Nemerical approximation of gradients）

在执行梯度检验时使用双边误差 $f′(θ)=f(θ+ϵ)−f(θ+ϵ)2ϵf'(\theta)=\frac{f(\theta+\epsilon)-f(\theta+\epsilon)}{2\epsilon}$ ，其逼近误差可以写成 $O(ϵ2)O(\epsilon^2)$ ，而不是单边误差 $f′(θ)=f(θ+ϵ)−f(θ)ϵf'(\theta)=\frac{f(\theta+\epsilon)-f(\theta)}{\epsilon}$ ，其逼近误差可以写为 $O(ϵ)O(\epsilon)$ ，其中 $ϵ\epsilon$ 为一个很小的数。

1.13梯度检验（Gradient checking）

实施梯度检验的过程，英语简称“grad check。

Take $W^{[1]},b^{[1]},...,W^{[L]},b^{[L]}$ and reshape into a big vector $θ\theta$ ，即 $J(W[1],b[1],...,W[L],b[L])=J(θ)=J(θ1,θ2,θ3,...)J(W^{[1]},b^{[1]},...,W^{[L]},b^{[L]})=J(\theta)=J(\theta _1,\theta _2,\theta _3,...)$

Take $dW^{[1]},db^{[1]},...,dW^{[L]},db^{[L]}$ and reshape into a big vector $dθd\theta$

循环执行，对每一个 $i$ 也就是每个 $θ\theta$ 组成元素计算 $dθapprox[i]d\theta_{approx}[i]$ 的值，使用双边误差：

$dθapprox[i]=J(θ1,θ2,...θ1+ϵ,...)−J(θ1,θ2,...θ1−ϵ,...)2ϵd\theta_{approx}[i]=\frac{J(\theta _1,\theta _2,...\theta_1+\epsilon,...)-J(\theta _1,\theta _2,...\theta_1-\epsilon,...)}{2\epsilon}$

只对 $θi\theta_i$ 增加 $ϵ\epsilon$ ， $θ\theta$ 其他项不变，对另一边减去 $ϵ\epsilon$ ， $θ\theta$ 其他项不变。 $dθapprox[i]d\theta_{approx}[i]$ 应该接近 $dθ[i]=∂J∂θid\theta[i]=\frac{\partial J}{\partial \theta_i}$ ， $dθ[i]d\theta[i]$ 是代价函数的偏导数，需要对 $i$ 的每个值都执行这个运算，最后得到逼近值 $dθapproxd\theta_{approx}$ ，取 $ϵ=10−7\epsilon=10^{-7}$ 时，求出 $∥dθapprox−dθ∥2∥dθapprox∥2+∥dθ∥2\frac{\left \|d\theta_{approx}-d\theta\right \|_2}{\left \|d\theta_{approx}\right \|_2+\left \|d\theta\right \|_2}$ 的值，若其在 $10^{-7}$ 范围内，则结果正确，若在 $10^{-5}$ 范围内，可能存在bug。