pytorch中的BatchNorm和LayerNorm

本文介绍了深度学习中两种重要的归一化技术——BatchNorm和LayerNorm。BatchNorm在每个batch的列方向进行归一化,而LayerNorm则在每个batch的行方向上进行。通过实例代码展示了两种归一化的实现过程,并提到了在计算样本方差时的无偏估计和有偏估计的区别。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

参考文章
https://blog.csdn.net/weixin_39228381/article/details/107896863
https://blog.csdn.net/weixin_39228381/article/details/107939602

  1. BatchNorm是在batch方向(每个batch的列方向)进行归一化:

    import torch.nn as nn
    import torch
    if __name__ == '__main__':
      norm = nn.BatchNorm1d(4, affine=False)
      inputs = torch.FloatTensor([[1,2,3,4],
                     			  [5,6,7,8]])
      print(inputs)
      output = norm(inputs)
      print(output)
      '''
      	tensor([[-1.0000, -1.0000, -1.0000, -1.0000],
        		[ 1.0000,  1.0000,  1.0000,  1.0000]])
      '''
    
    
  2. LayerNorm是在每个batct的行方向上进行归一化:

    import torch.nn as nn
    import torch
    if __name__ == '__main__':
      norm = nn.LayerNorm(4)
      inputs = torch.FloatTensor([[1,2,3,4],
                     			  [5,6,7,8]])
      output = norm(inputs)
      print(output)
      '''
      	tensor([[-1.3416, -0.4472,  0.4472,  1.3416],
        		[-1.3416, -0.4472,  0.4472,  1.3416]],
       				grad_fn=<NativeLayerNormBackward>)
      '''
    
    1. 详细计算过程可参考上方链接,在计算过程中,需要注意样本方差的无偏估计和有偏估计
      有偏和无偏的区别在于无偏的分母是N-1,有偏的分母是N。
### Batch Normalization Layer Normalization 的区别 Batch Normalization (BN) Layer Normalization (LN) 是两种用于神经网络中的正则化技术,旨在加速训练过程并提高模型性能。两者的核心目标都是通过减少内部协变量偏移来稳定梯度下降的过程。 #### 1. **定义与作用范围** - **Batch Normalization**: 对于每个 mini-batch 数据,在特征维度上计算均值方差,并对其进行标准化处理[^1]。这意味着 BN 主要关注的是不同样本之间的统计特性。 - **Layer Normalization**: 在单一样本的基础上操作,沿着该样本的所有特征维度计算其均值标准差来进行规范化[^2]。因此 LN 更适合处理序列数据或者当 batch size 较小时的情况。 #### 2. **适用场景对比** - 当批量大小较大时,**Batch Norm**表现良好因为它可以利用整个批次的信息来估计统计数据;然而如果批尺寸过小,则可能导致不稳定的估计从而影响收敛速度甚至发散[^3]。 - 反之,**Layer Norm** 不依赖具体的mini-batches 大小, 它只考虑当前输入张量内的结构关系 , 所以即使是在非常小规模的数据集或者是RNN/LSTM这类具有时间步长特性的架构里也能很好地发挥作用. #### 3. **直观比喻说明** 为了帮助理解这两种方法的区别,我们可以用两个不同的厨房工作流程来做类比: - 假设你在准备一顿饭需要用到多种食材(比如做意大利面)。如果你采用类似于 **Batch Normalization** 的方式清洗蔬菜,那么你会先收集一批相同类型的蔬菜一起洗——这样你可以更均匀地调整水量以及清洁剂浓度使得每颗菜叶都能达到理想状态后再继续下一步骤。这就好像是基于整体群体行为去优化个体属性的做法。 - 而对于另一种情况即使用 **Layer Normalization**, 这就像是不管有多少盘子待刷还是多少个人等着吃饭,你总是单独对待每一个碗碟上的残留物程度然后决定如何施加力量擦拭干净它。换句话说就是针对单一对象本身的特点独立做出反应而无需参照其他同类物品的状态变化趋势。 这种差异反映了它们各自适应不同类型的任务需求:前者更适合大规模生产环境下的统一管理策略; 后者则更加灵活机动能够应对个性化定制服务的要求. ```python import torch from torch import nn # Example of applying BatchNorm and LayerNorm in PyTorch class SimpleModel(nn.Module): def __init__(self): super(SimpleModel, self).__init__() self.bn = nn.BatchNorm1d(64) # Assuming input has shape [N, C=64] self.ln = nn.LayerNorm(normalized_shape=(64,)) def forward(self, x): bn_out = self.bn(x) ln_out = self.ln(x) return bn_out, ln_out ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值