Transformer——Q69 FFN参数量公式推导(GeLU(xW₁))W₂)

该问题归类到Transformer架构问题集——前馈网络——全连接层。请参考LLM数学推导——Transformer架构问题集

1. 引言

在大语言模型(LLM)蓬勃发展的当下,Transformer 架构凭借其卓越的性能表现,成为了众多先进语言模型的基石。前馈神经网络(Feed - Forward Network,FFN)作为 Transformer 架构中的关键组件,对模型的表达能力和性能起着至关重要的作用。深入理解 FFN 参数量公式 GeLU (xW_1)) W_2 的推导过程,有助于我们洞察 LLM 中的数学原理,为模型的优化和创新提供坚实的理论基础。

2. FFN 在 Transformer 中的角色

2.1 Transformer 架构概述

Transformer 架构主要由自注意力机制(Self - Attention)和前馈神经网络(FFN)等部分构成。自注意力机制能够捕捉输入序列中不同位置之间的依赖关系,而 FFN 则负责对自注意力机制输出的特征进行进一步的非线性变换,从而增强模型对语义信息的表达能力。

2.2 FFN 的功能定位

FFN 在 Transformer 中的主要任务是对输入特征进行升维和降维操作,引入非线性变换,使得模型能够学习到更复杂的语义模式。它通常由两层全连接层组成,中间通过激活函数进行非线性映射,常见的激活函数为 GeLU(Gaussian Error Linear Units)。

3. 前置知识

3.1 GeLU 激活函数

GeLU 激活函数的全称是 Gaussian Error Linear Units,其数学表达式为: GeLU(x)=x \cdot \Phi(x)

其中,\Phi(x)是标准正态分布的累积分布函数,即: \Phi(x)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{x}e^{-\frac{t^2}{2}}dt

GeLU 函数的核心思想是根据输入的分布情况,自适应地调整激活的程度。当输入值较大时,\Phi(x)接近 1,GeLU 函数近似于线性函数;当输入值较小时,<

### Transformer 模型公式推导过程详解 #### 输入表示 在Transformer模型中,输入序列首先被转换成向量形式。对于每一个位置上的token,其对应的嵌入向量由两部分组成:词嵌入(Token Embeddings)和位置编码(Positional Encoding)。这种设计使得即使并行处理所有tokens也能保留它们的位置信息[^1]。 ```python import numpy as np def get_position_encoding(seq_len, d_model): position_enc = np.array([ [pos / np.power(10000, 2 * (i // 2) / d_model) for i in range(d_model)] for pos in range(seq_len)]) position_enc[:, 0::2] = np.sin(position_enc[:, 0::2]) # apply sin to even indices position_enc[:, 1::2] = np.cos(position_enc[:, 1::2]) # apply cos to odd indices return position_enc ``` #### 自注意力机制 自注意力层允许每个position与其他positions交互来计算新的特征表达。具体来说,在给定查询Q、键K以及值V的情况下,通过下面的公式可以得到加权求和的结果作为输出: \[ \text{Attention}(Q,K,V)=\text{softmax}\left(\frac{Q K^{T}}{\sqrt{d_{k}}} \right)V \] 其中\( Q=WK^qX,\; K=W_K^k X ,\; V=W_V^v X\) ,这里W代表权重矩阵,X则是输入embedding加上位置编码后的结果[^2]。 #### 前馈神经网络 每一层还包含了一个简单的前馈全连接网络应用于各自的子空间内独立操作: \[ FFN(x)=max(0,x W_1+b_1)W_2+b_2 \] 这一步骤有助于引入非线性特性到模型架构之中。 #### 编码器-解码器结构 Encoder接收原始句子并通过多层堆叠上述组件形成上下文理解;Decoder则基于encoder产生的中间表征逐步生成目标语言表述。两者之间通过masked multi-head attention防止decoder提前看到未来的信息。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

墨顿

唵嘛呢叭咪吽

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值