Transformer中的矩阵问题

最新推荐文章于 2025-08-09 21:58:14 发布

原创最新推荐文章于 2025-08-09 21:58:14 发布 · 144 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#transformer #矩阵 #深度学习

本文详细介绍了如何在NumPy库中进行3D矩阵的乘法操作，包括矩阵维度的要求和相关示例，帮助读者理解二维数组扩展到三维的运算规则。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

NumPy 3D矩阵乘法

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

平安顺遂事事如意

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

轻松理解Transformer中的Q,K,V,O矩阵

生活需要深度

10-22

4143

标量（Scalar）是零维张量，如一个数值 5。向量（Vector）是一维张量，如 [1, 2, 3]。矩阵（Matrix）是二维张量，如 [[1, 2], [3, 4]]。高维张量是三维及以上的张量，如 [[[1], [2]], [[3], [4]]]。解码器堆栈输出一个浮点向量。我们如何将其转换为一个单词？这是最后一个线性层的工作，后面跟着一个 Softmax 层。线性层是一个简单的全连接神经网络，它将解码器堆栈产生的向量投影到一个更大的向量中，称为 logits 向量。

Transformer的矩阵维度分析和Mask详解

热门推荐

我最怜君中宵舞的博客

09-29

3万+

文章目录Multi-Head attention中矩阵维度的变化Transfromer的训练过程Transformer的句子生成过程Maskmask矩阵对K进行mask对Q进行maskMasked Multi-Head Attention中的Mask mask时Transformer中很重要的一个概念，mask操作的目的有两个：让padding(不够长补0)的部分不参与attention操作 ...

参与评论您还未登录，请先登录后发表或查看评论

一文读懂： Transformer（无代码）

jennycisp的博客

06-10

805

Transformer模型之所以被称为“Transformer”，是因为它的核心功能是对输入数据的矩阵进行变换处理。（哈哈，目前没有中文名，不是变形金刚也不是翻译）这种变换是通过计算矩阵内部各个向量之间的关系来实现的，目的是去除无效信息并加强有效信息。在这个过程中，组成矩阵的向量的值会发生变化，但形状保持不变。这样的变换使得模型能够更好地解决最终数学问题，计算最优解。

Transformer注意力模块（Attention)矩阵变换维度详解

xmyzqs1212的博客

01-15

672

Transformer注意力模块（Attention)矩阵变换维度详解

Transformer中的位置编码

lpy0204的博客

10-08

1105

绝对干货~

transformer中masked attention 取上三角矩阵的原因

Tan_JX的博客

04-20

1726

在实际中，我们知道生成一个句子时，我们无法看到后面的信息。比如生成我爱你，当生成“爱”时只能用到“我”的信息，并不能用到“你”的信息。但是在训练时，我们要给模型并行语料去学习，输入 I LOVE YOU 希望模型翻译成我爱你，但同时又要模拟真实情况下的输入，那么我们给decoder输入相应的译文中，要掩码掉部分信息，使其让模型不可见这部分信息。那么矩阵中黄色部分就得取值为0，使代码对这部分不可运算。这也是为什么在transformer中的masked阶段要生成一个上三角矩阵的原因。

理解Transformer中mask操作

lixiao2112924629的博客

06-16

4305

理解深度学习中transformer结构的mask操作

Transformer自注意力机制中Wq等权重矩阵的智能性

weixin_42128413的博客

02-23

1937

指数运算放大显著差异，使模型聚焦关键关联（如"wolf"占97%权重）。探照灯随机扫描（未训练矩阵），可能照到不相关的“rabbit”。的小数值矩阵（如高斯分布采样），相当于"未经训练的直觉"。( W^Q, W^K, W^V ) 在训练前为。最终学会将光束聚焦到“wolf”的特征区域。每次照错目标时，系统记录误差（损失函数）自动调整灯头旋转参数 (

Transformer中的权重共享

Zzzzyc_的博客

07-14

2103

权重共享是Transformer模型设计中的一种重要技术，通过合理应用可以显著提高模型的性能和训练效率。

Transformer模型-权重矩阵Wq，Wk，Wv的简明介绍

Ankie资深技术项目经理

03-31

6156

学习transformer模型的时候，权重矩阵Wq，Wk，Wv给我造成了很大的困扰： 1，为啥要加W*？ 2，这个W*是从哪里来的？搜索了各种信息，消化理解如下： 1，W*权重矩阵就是训练的目的，就是要找到合适的W*（weights）。 2，W* 是函数nn.Linear初始化的，默认为随机数。经过不断地训练，更新，最终获得比较好的结果

记录：关于多头transformer中qkv矩阵变化过程

weixin_41544900的博客

04-02

774

熟悉代码的人可能如上使用transpose以及reshape，我这样的也许会直接切片，切片就是代码书写繁琐，也无法并行运算吧。

【线性代数】线性方程组与矩阵——行列式

weixin_45725295的博客

08-09

690

{a11x1+a12x2=b1a21x1+a22x2=b2(1) \begin{cases}\tag{1} a_{11}x_1+a_{12}x_2=b_1\\ a_{21}x_1+a_{22}x_2=b_2\\ \end{cases} {a11x1+a12x2=b1a21x1+a22x2=b2(1)消去x2x_2x2，易得(a11a22−a12a21)x1=b1a22−a12b2(a_{11}a_{22}-a_{12}a_{21})x_1=b_1a_{22}-a_{12}b_2(a1

Jenkins全链路教程——Jenkins用户权限矩阵配置

tersky的专栏

08-07

1118

摘要：企业级CI/CD中，权限混乱比构建失败更致命。通过Jenkins权限矩阵（基于Role-based Authorization Strategy插件），可实现精准权限分配：核心原则：最小权限原则，按角色（全局/项目）分配权限，避免越权操作；配置流程：全局角色（如admin）管理系统级权限，项目角色（如frontend-developer）通过正则匹配控制任务级操作；用户绑定精准到个体，禁用继承权限，确保责任可追溯；最佳实践：定期审计权限、结合MFA、记录变更日志、测试权限生效性；避坑指南

【线性代数】线性方程组与矩阵——（2）矩阵与线性方程组的解

weixin_45725295的博客

08-09

577

在求解线性方程组的过程中，经常需要对线性方程进行数乘、加减、交换操作，这些操作前后的方程组是同解的，并且操作是可逆的。将这些同解变换移植到矩阵上，就得到了矩阵的3种初等变换。由行最简形矩阵可以写出线性方程组的解，反之可以写出方程组对应的行最简形矩阵，因此求解线性方程组的本质是把增广矩阵通过初等行变换化为行最简形矩阵。把矩阵初等行变换定义中的“行”换成“列”，就得到了矩阵的初等列变换。矩阵的初等行变换与初等列变换统称初等变换。总可以经过有限次初等行变换可以变成行阶梯形矩阵和行最简形矩阵。是形状最简单的矩阵。

【线性代数】线性方程组与矩阵——（3）线性方程组解的结构

最新发布

weixin_45725295的博客

08-09

593

设 VVV 为 nnn 维向量的集合，如果 VVV 非空，且 VVV 对于向量的加法和数乘封闭，即集合 VVV 中任意两个向量进行向量加法及数乘运算后依然归属集合 VVV，那么称集合 VVV 为向量空间。齐次线性方程组的解集 S={x∣Ax=0}S=\{\mathrm{x}|\mathrm{Ax=0}\}S={x∣Ax=0} 是一个向量空间，称为齐次线性方程组的解空间；非齐次线性方程组的解集 S={x∣Ax=b}S=\{\mathrm{x}|\mathrm{Ax=b}\}S={x∣Ax=b} 不是向量空间。

矩阵中的最长递增路径-记忆化搜索

qq_74248245的博客

08-08

164

一个简单的dfs搜索问题，只需要改成一个带返回值的搜索即可，再加上一个缓存表优化即可通过。

TikTok Shop冷启动破局战：亚矩阵云手机打造爆款账号矩阵

2401_89598053的博客

08-07

844

某饰品卖家注册10个新号，因用同一手机切换登录，3天内全部限流；：7天出现爆款视频（播放量200万+），店铺周销破$5万。自然流量获取难，付费广告成本飙升（CPM $10+）新账号0粉丝0权重，首条视频播放量常低于200。渐进式关注竞品账号（每日5-10个）多语言字幕生成（英/泰/越/印尼语）

【线性代数】线性方程组与矩阵——（1）线性方程组与矩阵初步

weixin_45725295的博客

08-09

577

由m×nm\times nm×n个数aiji12m;j12n排成mmm行nnn列的数表称为mmm行nnn列矩阵，简称m×nm\times nm×n矩阵，记作Aa11a12a1na21a22a2n⋮⋮⋮am1am2amnAa11a21⋮am1a12a22⋮am2a1。

transformer权重矩阵

03-27

### Transformer模型中的权重矩阵结构与作用 Transformer模型的核心机制之一是自注意力机制（Self-Attention Mechanism），其中涉及三个重要的权重矩阵：查询矩阵 $ W_q $、键矩阵 $ W_k $ 和值矩阵 $ W_v $[^4]。这些矩阵通过线性变换分别计算输入序列的查询向量（Query）、键向量（Key）和值向量（Value）。具体来说： #### 查询、键和值的定义在自注意力机制中，每个位置上的词会被表示为三部分： - **查询（Query, Q）**：代表当前词与其他词的关系。 - **键（Key, K）**：类似于其他词的特征描述。 - **值（Value, V）**：实际要提取的信息。这三个部分通过以下公式计算得出: \[ Q = XW_q,\quad K = XW_k,\quad V = XW_v \] 其中 $ X $ 是输入嵌入向量组成的矩阵，$ W_q $, $ W_k $, $ W_v $ 则是可训练的权重矩阵。 #### 自注意力机制的工作流程 1. 计算点积得分：对于每一个 Query 向量，与其对应的 Key 向量做点乘操作得到匹配程度分数。 2. 缩放处理：为了避免数值过大影响后续 Softmax 的稳定性，通常会将上述点积结果除以 $ \sqrt{d_k} $，这里 $ d_k $ 表示 Key 向量维度大小[^3]。 3. 应用 Softmax 归一化：使得每一对 (Query, Key) 得分转换成概率分布形式作为最终加权系数。 4. 加权求和：利用上一步获得的概率分布对 Value 进行加权平均运算从而获取新的上下文表征。这种设计允许模型并行地关注整个句子的不同部分，捕捉到更丰富的语义信息而不受距离限制。 #### 权重矩阵的作用 - **捕获不同类型的依赖关系**：不同的头（Heads）能够学习到不同类型的关注模式，比如局部依存或者全局主题关联等。 - **提升表达能力**：多头注意机制增加了网络宽度方向上的容量，有助于更好地建模复杂的数据特性。以下是实现一个多头注意力层的一个简单例子: ```python import torch import torch.nn as nn class MultiHeadedAttention(nn.Module): def __init__(self, num_heads, model_dim, dropout=0.1): super(MultiHeadedAttention, self).__init__() assert model_dim % num_heads == 0 self.head_dim = model_dim // num_heads self.num_heads = num_heads self.linears = clones(nn.Linear(model_dim, model_dim), 4) self.attn = None self.dropout = nn.Dropout(p=dropout) def forward(self, query, key, value, mask=None): nbatches = query.size(0) # Do all the linear projections in batch from d_model => h x d_k query, key, value = \ [l(x).view(nbatches, -1, self.num_heads, self.head_dim).transpose(1, 2) for l, x in zip(self.linears, (query, key, value))] # Apply attention on all the projected vectors in batch. x, self.attn = scaled_dot_product_attention(query, key, value, mask=mask, dropout=self.dropout) # Concatenate and apply final Linear transformation. x = x.transpose(1, 2).contiguous().view(nbatches, -1, self.num_heads * self.head_dim) return self.linears[-1](x) ```