如何在冻结的MSA内部更改q,k,v的形状

本文链接：https://blog.csdn.net/qq_45809323/article/details/142983698

在冻结多头自注意力（MSA）层的参数的情况下，若希望更改 q（查询）、k（键）、v（值）的形状，可以通过修改这些矩阵的输出维度或重新排列它们的维度，而不需要改变 MSA 内部的参数或对它们进行反向传播更新。这可以通过以下方式实现：

方法 1：使用视图变换或重排维度

通过重新排列 q、k 和 v 的维度，直接改变其形状。这种方法对冻结的参数没有影响，只是在其输出上进行操作。

import torch
import torch.nn as nn

class ModifiedMSA(nn.Module):
    def __init__(self, attention_layer):
        super().__init__()
        self.attention_layer = attention_layer  # 引用原始冻结的 MSA 层

    def forward(self, x):
        # 获取 MSA 层的 q、k、v 并更改形状
        B, N, C = x.shape
        qkv = self.attention_layer.qkv(x)  # 原始 qkv 的输出
        qkv = qkv.reshape(B, N, 3, self.attention_layer.num_heads, C // self.attention_layer.num_heads)
        q, k, v = qkv.permute(2, 0, 3, 1, 4)  # 分割 q, k, v

        # 更改 q, k, v 的形状，如扩展到更多维度
        q = q.view(B, self.attention_layer.num_heads, N, -1)  # 改变查询向量形状
        k = k.permute(0, 1, 3, 2)  # 例如对键进行转置
        v = v.view(B, -1, self.attention_layer.num_heads * (C // self.attention_layer.num_heads))

        # 使用修改后的 q, k, v 计算注意力分数
        attn = (q @ k) * self.attention_layer.scale
        attn = attn.softmax(dim=-1)
        out = (attn @ v).transpose(1, 2).reshape(B, N, C)
        out = self.attention_layer.proj(out)  # 使用原始冻结的投影层
        return out

# 将 MSA 层替换为 ModifiedMSA 层
for i, block in enumerate(model.blocks):
    block.attn = ModifiedMSA(block.attn)

这种方式对 q、k、v 进行了重排和视图变换，可以有效改变它们的形状，适应不同的计算需求，而不会对原始参数产生影响。

方法 2：插入新的层来处理形状变换

如果需要更灵活的变换，可以在 q、k、v 后插入新的层，比如 nn.Linear 层，用于扩展或压缩维度。这种方式在 MSA 的输出上添加了一层处理，保持了原始 MSA 参数的冻结状态。

class ExtendedMSA(nn.Module):
    def __init__(self, attention_layer, new_dim):
        super().__init__()
        self.attention_layer = attention_layer
        self.q_proj = nn.Linear(attention_layer.qkv.out_features // 3, new_dim, bias=False)
        self.k_proj = nn.Linear(attention_layer.qkv.out_features // 3, new_dim, bias=False)
        self.v_proj = nn.Linear(attention_layer.qkv.out_features // 3, new_dim, bias=False)

    def forward(self, x):
        B, N, C = x.shape
        qkv = self.attention_layer.qkv(x)
        qkv = qkv.reshape(B, N, 3, self.attention_layer.num_heads, C // self.attention_layer.num_heads)
        q, k, v = qkv.permute(2, 0, 3, 1, 4)  # 分割出 q, k, v

        # 使用新的层改变 q, k, v 的维度
        q = self.q_proj(q)
        k = self.k_proj(k)
        v = self.v_proj(v)

        # 使用修改后的 q, k, v 继续 MSA 的注意力计算
        attn = (q @ k.transpose(-2, -1)) * self.attention_layer.scale
        attn = attn.softmax(dim=-1)
        out = (attn @ v).transpose(1, 2).reshape(B, N, -1)
        out = self.attention_layer.proj(out)
        return out

# 替换模型中的 MSA 层
for i, block in enumerate(model.blocks):
    block.attn = ExtendedMSA(block.attn, new_dim=64)  # new_dim 设置为新的维度大小

通过插入新的 Linear 层，可以在不更改原始 MSA 内部参数的情况下扩展或压缩 q、k、v 的形状。

方法 3：增加动态维度处理

如果希望在不同批次或条件下动态调整 q、k 和 v 的形状，可以加入自定义的条件逻辑来动态更改维度。

class DynamicMSA(nn.Module):
    def __init__(self, attention_layer, dynamic_dim_func):
        super().__init__()
        self.attention_layer = attention_layer
        self.dynamic_dim_func = dynamic_dim_func

    def forward(self, x):
        B, N, C = x.shape
        qkv = self.attention_layer.qkv(x)
        qkv = qkv.reshape(B, N, 3, self.attention_layer.num_heads, C // self.attention_layer.num_heads)
        q, k, v = qkv.permute(2, 0, 3, 1, 4)

        # 动态调整 q, k, v 的形状
        q = q.view(B, self.attention_layer.num_heads, N, -1)
        k = k.view(B, self.attention_layer.num_heads, -1, self.dynamic_dim_func(N))
        v = v.view(B, -1, self.attention_layer.num_heads * self.dynamic_dim_func(C // self.attention_layer.num_heads))

        # 继续原始注意力计算
        attn = (q @ k) * self.attention_layer.scale
        attn = attn.softmax(dim=-1)
        out = (attn @ v).transpose(1, 2).reshape(B, N, C)
        out = self.attention_layer.proj(out)
        return out

# 使用动态维度函数替换 MSA 层
for i, block in enumerate(model.blocks):
    block.attn = DynamicMSA(block.attn, dynamic_dim_func=lambda dim: dim // 2)  # 例如，将维度缩减一半