【pytorch】weight_norm和spectral_norm

apply_parametrization_normspectral_norm是 PyTorch 中用于对模型参数进行规范化的方法,但它们在实现和使用上有显著的区别。以下是它们的主要区别和对比:

实现方式

weight_norm:

weight_norm 是一种参数重参数化技术,将权重分解为两个部分:方向(v) 和 大小(g)。
具体来说,权重 w 被重参数化为:
w=g⋅
∥v∥
v

其中,g 是标量,表示权重的大小;v 是向量,表示权重的方向。
这种方法通过分离权重的大小和方向,使得优化过程更加稳定。

归一化后的权重向量实际上是 v 的归一化形式,即 v_normalized = v / ||v||,而 weight 的值为 g * v_normalized

spectral_norm:

spectral_norm 是一种基于谱范数的规范化方法,谱范数定义为矩阵 M 的最大奇异值:

在这里插入图片描述

具体来说,谱范数是矩阵 M 作用在单位向量上时的最大放大因子。

作用:通过限制矩阵的最大奇异值,控制矩阵的放大能力,从而提高模型的稳定性和泛化能力

通过幂迭代法(Power Iteration)计算矩阵的最大奇异值。具体步骤如下:
初始化两个向量 u 和 v。
迭代计算:
在这里插入图片描述

最大奇异值 在这里插入图片描述

然后将权重规范化为
在这里插入图片描述

使用场景

weight_norm:

主要用于规范化权重,特别适用于需要控制权重大小的场景。
例如,在某些生成模型或自注意力机制中,权重的大小对模型的稳定性和性能有重要影响。
weight_norm 提供了一种简单且直接的方式来实现权重的规范化。

spectral_norm:

常用于生成对抗网络(GAN)中,通过限制生成器和判别器的最大奇异值,提高模型的稳定性和泛化能力。
优点:能够有效控制矩阵的放大能力,适用于需要限制模型输出范围的场景

代码样例

weight_norm:

import random
import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.utils.weight_norm as weight_norm

# 创建一个简单的线性层
linear_layer = nn.Linear(2, 3)

# Override the weights of linear_layer
linear_layer.weight.data = torch.tensor([[0, -2e-2], [0.3, 1.0], [1e-2, 0]], dtype=torch.float32)  # 3x2
linear_layer.bias.data = torch.tensor([-0.3, 0, -2e-2], dtype=torch.float32)  # 3x1

# Apply weight normalization
linear_layer = weight_norm(linear_layer, name='weight')

optimizer = optim.Adam(linear_layer.parameters(), lr=2e-3)

# 打印原始权重
print("################原始权重:################")
print("linear_layer.weight_v: ", linear_layer.weight_v)
print("linear_layer.we
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值