层归一化和批量归一化都是 归一化方法,目的是让训练更稳定、收敛更快,但应用场景和工作方式大不相同。
名称 | 一句话解释 |
---|---|
BatchNorm | 对 同一通道、不同样本之间 做归一化,适合图像任务,依赖 Batch Size。 |
LayerNorm | 对 每个样本自身所有特征维度 做归一化,适合序列任务,不依赖 Batch Size。 |
📦 一、Batch Normalization(批量归一化)
🔧 原理:
在每一层的激活输出上,对同一通道的所有样本进行归一化。
公式(在训练时):
[x^(k)=x(k)−μBσB2+ϵ][ \hat{x}^{(k)} = \frac{x^{(k)} - \mu_B}{\sqrt{\sigma_B^2 + \epsilon}} ]