Googlenet-v2 (BN层的提出)
论文题目是: Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift(批标准化:缓解内部协变量偏移加快深度神经网络训练
)
作者: Sergey Ioffe & Christian Szegedy(GoogLeNet-v1 一作)
单位: Google Inc.
发表时间: 2015年
本篇论文的主要trick:Batch Normalization
研究背景、成果和意义
相关研究:GoogLeNet –V1 采用多尺度卷积核,11卷积操作,辅助损失函数,实现更深的22层卷积神经网络,夺得ILSVRC-2014 分类和检测冠军,定位亚军。
本文在GoogLeNet-V1 基础上加入BN层,同时借鉴VGG的小卷积核思想,将55卷积替换为2个3*3卷积
ICS (Internal Covariate Shift):内部协变量偏移。
ICS现象:输入数据分布变化,导致的模型训练困难,对深度神经网络影响极大。如下图所示输入数据做不同的标准化,方差,均值不一样的分布。
白化(Whitening) 去除输入数据的冗余信息,使得数据特征之间相关性较低,所有特征具有相同方差,即将数据变为0均值,1标准差的形式,实现白化。
依据 是概率论公式:N(x)=x −mean/std,, 使X变为0均值,1标准差。mean-mean=0, std * 1/std = 1
区别: 白化是对数据做预处理,即在数据输入模型之前做处理,而BN层是在模型中对数据做处理。
成果:
- 提出BN层:加快模型收敛,比googlenet-v1快数十倍,获得更优结果
- GoogLeNet-v2 获得ILSVRC 分类任务 SOTA,但该论文没有参赛
BN 优点:
1、可以用更大学习率,加速模型收敛
2、 可以不用精心设计权值初始化
3、 可以不用dropout或较小的dropout
4、 可以不用L2或者较小的weight decay
5、 可以不用LRN(local response normalization)
研究意义:
1、加速了深度学习发展
2、开启神经网络设计新时代,标准化层已经成为深度神经网络标配
在Batch Normalization基础上拓展出了一系例标准化网络层,如
Layer Normalization(LN),
Instance Normalization(IN),
Group Normalization(GN)
不同标准层之间的相同点与差别:
相同点:公式相同
不同点:均值和方差求取方式
摘要
摘要核心:
- 提出问题:数据分布变化导致训练困难(PS:权重变化–输出变化–输入