该问题归类到Transformer架构问题集——前馈网络——全连接层。请参考LLM数学推导——Transformer架构问题集。
1. 引言
在大语言模型(LLM)蓬勃发展的当下,Transformer 架构凭借其卓越的性能表现,成为了众多先进语言模型的基石。前馈神经网络(Feed - Forward Network,FFN)作为 Transformer 架构中的关键组件,对模型的表达能力和性能起着至关重要的作用。深入理解 FFN 参数量公式 的推导过程,有助于我们洞察 LLM 中的数学原理,为模型的优化和创新提供坚实的理论基础。
2. FFN 在 Transformer 中的角色
2.1 Transformer 架构概述
Transformer 架构主要由自注意力机制(Self - Attention)和前馈神经网络(FFN)等部分构成。自注意力机制能够捕捉输入序列中不同位置之间的依赖关系,而 FFN 则负责对自注意力机制输出的特征进行进一步的非线性变换,从而增强模型对语义信息的表达能力。
2.2 FFN 的功能定位
FFN 在 Transformer 中的主要任务是对输入特征进行升维和降维操作,引入非线性变换,使得模型能够学习到更复杂的语义模式。它通常由两层全连接层组成,中间通过激活函数进行非线性映射,常见的激活函数为 GeLU(Gaussian Error Linear Units)。
3. 前置知识
3.1 GeLU 激活函数
GeLU 激活函数的全称是 Gaussian Error Linear Units,其数学表达式为:
其中,是标准正态分布的累积分布函数,即:
GeLU 函数的核心思想是根据输入的分布情况,自适应地调整激活的程度。当输入值较大时,接近 1,GeLU 函数近似于线性函数;当输入值较小时,<