大模型常用的Normalization方法，包括BatchNorm、LayerNorm、RMSNorm等方法，并给出样例和公式，通俗易懂

最新推荐文章于 2025-04-01 15:34:46 发布

微学AI

最新推荐文章于 2025-04-01 15:34:46 发布

阅读量677

点赞数 17

文章标签：人工智能 python 大模型归一化

本文链接：https://blog.csdn.net/weixin_42878111/article/details/144347888

版权

大家好，我是微学AI，今天给大家介绍一下大模型常用的Normalization方法，包括BatchNorm、LayerNorm、RMSNorm等方法，并给出样例和公式，通俗易懂。在大模型搭建与训练中，Normalization是一种重要的技术，用于加速模型训练、提高模型的泛化能力和稳定性。常见的Normalization方法有多种，每种方法都有其特定的应用场景和优势。
在这里插入图片描述

一、Batch Normalization (BN)

1. 定义

Batch Normalization是在batch（一批数据）中寻找均值和方差来进行归一化操作的方法。它通过对每一批数据中的每个特征维度进行归一化，使得数据的分布更加稳定，有助于加速模型的训练过程，减少梯度消失或梯度爆炸等问题。它在深度学习中被广泛应用于卷积神经网络（CNN）等模型中。
对于一批数据（数据集）含有 $m$ 个样本输入 $x_1,x_2,\cdots,x_m$ ，首先计算这批数据的均值 $\mu_B\leftarrow\frac{1}{m}\sum_{i = 1}^{m}x_i$ ，方差 $\sigma^2_B\leftarrow\frac{1}{m}\sum_{i = 1}^{m}(x_i - \mu_B)^2$ ，然后对每个样本 $x_i$ 进行归一化 $\hat{x}_i\leftarrow\frac{x_i-\mu_B}{\sqrt{\sigma^2_B+\epsilon}}$ ，最后再进行affine transform（仿射变换） $y_i\leftarrow\gamma\hat{x}_i+\beta\equiv BN_{\gamma,\beta}(x_i)$ ，这里的 $\gamma$ 和 $\beta$ 是可学习的参数， $\epsilon$ 是一个很小的数（通常为 $1 e - 5$ ），用于防止分母为 $0$ 。如果 $\gamma$ 和 $\beta$ 分别学习为方差和均值，那么标准化操作将被逆操作回来，由此就可视为没有标准化这一步，这使得模型更加灵活。

2. BN样例与公式

假设我们有一个batch大小为 $m = 4$ ，特征维度为 $n = 2$ 的数据 $X=\begin{bmatrix}x_{11}&x_{12}\\x_{21}&x_{22}\\x_{31}&x_{32}\\x_{41}&x_{42}\end{bmatrix}$ 。
计算均值 $\mu=\begin{bmatrix}\mu_1\\\mu_2\end{bmatrix}$ ，其中 $\mu_1=\frac{1}{4}(x_{11}+x_{21}+x_{31}+x_{41})$ ， $\mu_2=\frac{1}{4}(x_{12}+x_{22}+x_{32}+x_{42})$ 。
计算方差 $\sigma^2=\begin{bmatrix}\sigma^2_1\\\sigma^2_2\end{bmatrix}$ ，其中 $\sigma^2_1=\frac{1}{4}\sum_{i = 1}^{4}(x_{i1}-\mu_1)^2$ ， $\sigma^2_2=\frac{1}{4}\sum_{i = 1}^{4}(x_{i2}-\mu_2)^2$ 。
归一化后的 $\hat{X}=\begin{bmatrix}\frac{x_{11}-\mu_1}{\sqrt{\sigma^2_1+\epsilon}}&\frac{x_{12}-\mu_2}{\sqrt{\sigma^2_2+\epsilon}}\\\frac{x_{21}-\mu_1}{\sqrt{\sigma^2_1+\epsilon}}&\frac{x_{22}-\mu_2}{\sqrt{\sigma^2_2+\epsilon}}\\\frac{x_{31}-\mu_1}{\sqrt{\sigma^2_1+\epsilon}}&\frac{x_{32}-\mu_2}{\sqrt{\sigma^2_2+\epsilon}}\\\frac{x_{41}-\mu_1}{\sqrt{\sigma^2_1+\epsilon}}&\frac{x_{42}-\mu_2}{\sqrt{\sigma^2_2+\epsilon}}\end{bmatrix}$ 。
经过仿射变换后的 $Y=\begin{bmatrix}\gamma_1\hat{x}_{11}+\beta_1&\gamma_2\hat{x}_{12}+\beta_2\\\gamma_1\hat{x}_{21}+\beta_1&\gamma_2\hat{x}_{22}+\beta_2\\\gamma_1\hat{x}_{31}+\beta_1&\gamma_2\hat{x}_{32}+\beta_2\\\gamma_1\hat{x}_{41}+\beta_1&\gamma_2\hat{x}_{42}+\beta_2\end{bmatrix}$