attention is all ur need---2017 transformer原始版本paper

这篇博客详细介绍了Transformer模型的架构,包括编码器和解码器堆栈,其中重点讲解了注意力机制,特别是缩放点积注意力和多头注意力。模型利用自注意力机制来处理序列数据,使得模型能够学习远程依赖关系,同时探讨了自注意力相对于其他层类型的计算复杂度和路径长度优势。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

3 Model Architecture

大多数具有争议的自然序列转导模型都具有编码器-解码器结构[5,2,35]。
在此,编码器将符号表示形式(x 1,…,x n)的输入序列映射到连续表示形式z =(z 1,…,z n)的序列。 给定z,则解码器然后一次生成一个元素的符号的输出序列(y 1,…,y m)。 模型的每一步都是自动回归的[10],在生成下一个时,会将先前生成的符号用作附加输入。Transformer遵循这种总体架构,对编码器和解码器使用堆叠式自注意力层和逐点,全连接层,分别如图1的左半部分和右半部分所示。在这里插入图片描述

3.1 Encoder and Decoder Stacks

编码器Encoder:编码器由N = 6个相同层的堆栈组成。 每层都有两个子层。 第一个是多头自我关注机制,第二个是简单的位置完全连接的前馈网络。 我们在两个子层中的每个子层周围采用残差连接[11],然后进行层归一化[1]。 也就是说,每个子层的输出是LayerNorm(x + Sublayer(x)),其中Sublayer(x)是由子层本身实现的功能。 为了促进这些剩余连接,模型中的所有子层以及嵌入层都将产生尺寸为dmodel = 512的输出。
解码器:解码器还由N = 6个相同层的堆栈组成。 除了每个编码器层中的两个子层之外,解码器还插入第三子层,该第三子层对编码器堆栈的输出执行多头关注。 与编码器类似,我们在每个子层周围采用残余连接,然后进行层归一化。 我们还修改了解码器堆栈中的自关注度子层,以防止位置出现在后续位置。 这种堆叠,加上输出嵌入被一个位置偏移的方式,确保了对位置i的预测只能依赖于小于i位置的已知输出。

3.2 Attention

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值