一步一步理解大模型：因果掩码

原创已于 2023-04-20 04:05:49 修改 · 8.6k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #机器学习 #人工智能

于 2023-04-18 23:21:17 首次发布

GPT模型利用因果掩码防止在预测时看到未来令牌，通过自注意力机制只关注过去信息。训练时，使用torch.triu创建掩码矩阵，屏蔽未来的令牌，确保预测基于已知上下文。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

GPT的训练方法是使用因果掩码（causal mask），让模型在预测当前令牌时不能看到未来的令牌。

在Transformer模型中，自注意力（self-attention）是在整个令牌（token）序列上计算的，包括当前令牌之后的令牌。

在训练期间，我们不希望模型在预测当前令牌时看到未来的令牌而“作弊”。为了防止这种情况，我们使用了因果掩码（causal mask），将所有未来的令牌设置为零，有效地从注意力机制中屏蔽了它们。

这使得模型在进行预测时只能关注过去和当前的令牌，并确保它仅基于每个时间步骤可用的信息进行预测。

具体实现中，这种掩码可以通过原始输入和一个合适的上三角矩阵相乘（或者逻辑与）来得到。

# Causal mask
causal_mask = torch.triu(torch.ones(input_shape[1], input_shape[1]), diagonal=1).bool().to(input.device)

例如，这句话：Cat is too fat. 会生成如下矩阵(假设窗口无限大)：

Cat  <PAD> <PAD> <PAD>
Cat    is   <PAD> <PAD>
Cat    is    too   <PAD>

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

chattyfish

关注关注

5
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Transformer大模型实战使用动态掩码而不是静态掩码

AI天才研究院

06-12

827

1. 背景介绍 Transformer是一种基于自注意力机制的神经网络模型，被广泛应用于自然语言处理领域，如机器翻译、文本生成等任务。在Transformer模型中，掩码（mask）是一种重要的机制，用于限制模型在处理序列时只能看到前面的部分，而不能看到后面的部分。在原始的Transformer模型中，掩码是静态的，即在训练过程中就已经确定好了，不能

【从零开始大模型开发与微调】AI 人工智能大语言模型 LLM：语言与思维——实践的融合

AI天才研究院

07-04

2971

在人工智能领域，大语言模型（Large Language Models, LLMs）已经取得了令人瞩目的成就。这些模型基于深度学习，通过在大量文本数据上预训练学习语言知识，被广泛应用于各种自然语言处理（NLP）任务，如图像描述、对话系统、翻译、摘要生成等。但这些模型的性能和表现，特别是其对语言和思维的理解，仍存在诸多困惑和疑问。大语言模型（LLMs）：指基于深度学习技术，通过在大量文本数据上预训练学习语言知识，能够理解和生成自然语言的大规模模型。自监督学习。

1 条评论您还未登录，请先登录后发表或查看评论

LLM - Make Causal Mask 构造因果关系掩码

BITDDD小栈

09-25

5619

LLM MakeCausalMask 构造因果关系掩码函数解析。

手写mask|代码详解，TriangularCausalMask/ProbMask/LocalMask

最新发布

哪惧明天，风高路斜

06-03

1037

多种掩码图解及代码详细注释

【有啥问啥】因果图模型（Causal Graphical Model, CGM）：理解因果关系的强大工具

Chauvin的博客

08-29

3837

因果图模型作为一种强大的工具，为我们理解和推断变量之间的因果关系提供了系统化的方法。通过图形化表示和干预分析，因果图模型能够揭示复杂系统中的因果链条，并支持科学决策。尽管在模型构建和验证过程中存在挑战，但其在数据分析中的重要性和潜力无可否认。未来，随着技术的发展，我们期待因果图模型能够在更多领域发挥更大的作用，为数据科学带来更多的创新和突破。

一步一步理解大模型：注意力填充掩码的作用

chattyfish的博客

04-18

1698

因此，在Attention Pad Mask的作用下，模型只会关注输入序列中实际的token，而忽略填充token。在计算注意力分数时，对于第一个序列中的第4和第5个位置，以及第二个序列中的最后三个位置，由于其对应的填充token为0，因此Attention Pad Mask中的值为True，会将其对应的分数设置为负无穷大。例如，假设我们有一个batch size为2的输入序列，长度分别为5和7，其中填充token的值为0。分别代表查询序列和键序列。

多模态大模型掩码梳理笔记：因果掩码，视觉-语言任务掩码设计

学习记录

02-19

1005

多模态大模型如何针对不同的任务设计Attention Mask

解密大型语言模型：从相关性中发现因果关系？

zenRRan的博客

06-16

1431

深度学习自然语言处理原创作者：wkk因果推理是人类智力的标志之一。因果关系NLP领域近年来引起了人们的极大兴趣，但其主要依赖于从常识知识中发现因果关系。本研究提出了一个基准数据集(CORR2CAUSE)来测试大语言模型(LLM)的纯因果推理能力。其中CORR2CAUSE对LLM来说是一项具有挑战性的任务，有助于指导未来关于提高LLM纯粹推理能力和可推广性的研究。简介因果推理因果推理是推理的一个基...

农业大模型：关键技术、应用分析与发展方向

python122_的博客

05-31

3208

结论/展望］

生成-理解大一统：一文浅谈多模态大模型最新研究进展

Paper weekly

09-13

1538

在过去几年中，多模态智能的两个关键支柱——理解和生成，取得了显著进展。多模态大型语言模型（MLLMs），如 LLaVA，在视觉语言任务（例如视觉问答）中表现出色。同时，去噪扩散概率模型（DDPMs）在文本到图像/视频生成方面也取得了前所未有的成果。尽管在各自领域取得了这些成就，研究者们开始探索将这两者连接的潜力。近期的研究尝试将来自不同领域的专家模型组合成一个统一系统，以同时处理多模态理解和生成。...

人工智能大模型综述学习笔记

swordnews的博客

07-31

2004

深度学习模型需要大量标记数据进行训练才能达到良好性能，然而手工标记数据耗时耗力，并且特定任务领域的数据往往比较稀缺，限制了深度学习模型的应用。此外，在有限的数据量下，当参数量增加时，模型容易出现过拟合问题，难以泛化到不同的任务领域。为了减少数据集构建的工作量，提升模型的领域迁移能力，研究者提出使用基于大规模数据集训练的模型来处理不同的任务。预训练模型(Pretrained Model, PM)提供了一种基于预训练和微调的两阶段解决方案：在预训练阶段，模型从大规模无监督数据中学习领域知识；

深入理解与编码大语言模型中的自注意力、多头注意力、交叉注意力与因果注意力

强化学习曾小健

03-26

623

现在，让我们讨论一种被广泛使用的自注意力机制——缩放点积注意力 (scaled dot-product attention)，它是 Transformer 体系结构的核心组成部分。在自注意力机制中，模型使用三个权重矩阵，分别称为Wq、Wk 和 Wv，这些矩阵在训练过程中作为模型参数进行调整。它们的作用是将输入投影到序列的查询 (query)、键 (key) 和值 (value)组件中。

大模型在因果推理中的创新应用

AI天才研究院

12-31

963

大模型在因果推理中的创新应用关键词 大模型 因果推理 深度学习 算法数学模型系统架构摘要本文旨在探讨大模型在因果推理领域的创新

大模型处理输入长度不一致问题；注意力掩码（Attention Mask）；可变长度位置编码；位置编码（Positional Encoding）；截断或分割

ZJQ的博客

08-07

345

大模型处理输入长度不一致问题；注意力掩码（Attention Mask）；可变长度位置编码；位置编码（Positional Encoding）；截断或分割

技术动态 | 也看大模型在事理图谱中的有趣表现：从概率链式因果搜索到因果抽取再到指令驱动的图谱构建评测...

开放知识图谱

05-11

2378

转载公众号 | 老刘说NLP事理图谱是过去一年来比较火的一个方向，其靠着主打推理预测这一特点，通过构建以事件为核心，事件之间因果等关系，形成传导推理链，一度被认为大有可为。但目前大模型席卷之下，事理图谱从推理端，从构建侧，在大模型看来又是怎样的性能，是否有惊艳的表现。为了解决这个问题，本文从应用搜索，图谱构建，脚本预测三个角度进行介绍，并在最后介绍一个基于指令微调的评测任务，供大家参考。一、大模型...

【MHA】之 Attention Mask (with back & forward trace) / Causal Mask (with back trace)

化甘

11-20

4867

文章目录1. Attention Mask or Causal Mask2. Causal Mask (with n_backtrce)3. Attention Mask with backstrace and forwardtrace4. Customized Mask 在multihead attention 中可添加attention mask,对输入进行范围限定,如因果mask (causal mask):即可限定只看当前点前面的数据,不可看该点之后的数据.从矩阵上看,causal mask类似

基于大模型实现因果推断的探讨

罗伯特技术屋

06-11

519

摘要大模型是利用海量数据形成庞大参数量的机器学习模型，而因果推断是推断和理解事件、变量或行为之间的因果关系。从大模型与因果推断相互结合的可能性和难点、大模型预训练、因果模型的人类反馈学习过程和微调技术等方面进行探讨，论述了大模型具有发现潜在因果关系的机制和因果关系预测及解释的潜力。此外，归纳了部分大模型开源工具，可用于快速实现大模型训练、验证和部署。 0 1 概述1.1 大模型大模型指利用海量数据用自监督方法进行训练而生成拥有庞大参数量的机器学习模型，它们为下游任务提供了优良的分布式特征表

因果模型一：因果模型入门综述

热门推荐

baidu_39413110的博客

11-24

2万+

因果模型一：因果模型的发展概述一. 为什么要研究因果模型？二. 因果研究的发展历程1. C.G. Hempel 1984——因果研究的分水岭一. 为什么要研究因果模型？在现如今的互联网金融领域，我们会发现机器学习的应用套路都大同小异。不论是逻辑回归，梯度提升模型还是深度学习，本质上都是一种对观测数字的拟合手段，说到底都是在寻找事物之间的相关性信息。即便我们能拟合出一个效果逆天的模型出来，我们依然很难通过模型去解释清楚好人之所以好，坏人之所以坏的背后原因是什么。换句话说，这样的模型好用，但无法真正帮助我们

【并发理论】事件、执行轨迹、可行性公理、最大因果模型

SUKI547的博客

02-19

573

文章目录事件执行轨迹内容来自 — 背景 — 任意线程都能通过执行一组原子操作来访问并发对象；若对某些并发对象进行访问的原子操作序列能由并发程序的执行产生，则表明这些原子操作序列满足了规定的顺序要求。这些顺序要求被称为并发对象的序列化规范（serial specification）序列化规范是顺序要求，是并发程序对并发对象访问产生的原子操作序列顺序。并发对象多为两种：共享内存地址：对共享...

qwen模型结构

03-21

### Qwen 大模型架构及组成结构 Qwen 是一种基于 Transformer 的大型预训练语言模型，其设计目标是为了处理复杂的自然语言任务并提供高质量的结果。以下是关于 Qwen 架构及其组成部分的详细介绍： #### 1. **整体架构** Qwen 基于标准的 Transformer 结构构建，主要分为编码器（Encoder）和解码器（Decoder）。对于单向生成任务，通常仅使用解码器部分；而对于双向理解任务，则可能涉及编码器-解码器联合工作模式[^1]。 #### 2. **核心组件** ##### (1) 编码器（Encoder）编码器的主要功能是对输入序列进行表示学习，通过多头自注意力机制捕捉上下文关系，并利用前馈神经网络增强特征表达能力。具体来说： - 输入经过嵌入层（Embedding Layer），将离散 token 转化为连续向量； - 使用堆叠的多个 Transformer 层来逐步提取高层次语义信息； - 每一层包含一个多头自注意力模块以及一个 MLP 模块。 ##### (2) 解码器（Decoder）解码器用于生成输出序列，在每一步预测下一个词的过程中考虑已生成的部分作为条件约束。类似于编码器，它也由若干个 Transformer 层构成，不过引入了掩码操作以确保因果性——即当前时刻只依赖过去的历史而非未来的信息。 ##### (3) MLP 模块正如所提到的内容所示，MLP（Multi-Layer Perceptron）是由两层线性变换加上中间夹带的一个非线性激活函数组成的子单元。它的作用在于补充局部交互之外更广泛的映射可能性，从而提升整个系统的建模灵活性与表现力。 ```python import torch.nn as nn class MLP(nn.Module): def __init__(self, input_dim, hidden_dim, output_dim): super(MLP, self).__init__() self.fc1 = nn.Linear(input_dim, hidden_dim) self.act = nn.GELU() # 或其他激活函数 self.fc2 = nn.Linear(hidden_dim, output_dim) def forward(self, x): x = self.fc1(x) x = self.act(x) x = self.fc2(x) return x ``` 上述代码片段展示了如何实现一个简单的 MLP 模块，其中 `nn.Linear` 表示全连接层，而 `nn.GELU()` 则代表了一种常用的激活方式之一 Gelu 函数的应用实例。 #### 3. **参数规模与其他特性** 除了基础框架外，Qwen 还具备超大规模参数数量级的优势，这使得它可以更好地拟合复杂分布下的数据规律。另外，针对不同应用场景需求，该系列还衍生出了多种变体版本如闭源版、开源精简型等供开发者选用。 ---