Bert-part3

最新推荐文章于 2025-08-05 13:20:27 发布

原创

最新推荐文章于 2025-08-05 13:20:27 发布 · 90 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#bert #人工智能 #深度学习

剖析 BERT 附录：解码器

转载自：https://medium.com/dissecting-bert/dissecting-bert-appendix-the-decoder-3b86f66b0e5f

符号

在开始之前，让我们定义将在整篇文章中使用的符号：

emb_dim：嵌入的尺寸

input_length：输入序列的长度

target_length：目标序列的长度 + 1。+1 是移位的结果。

vocab_size：词汇量中的单词数量（偏离语料库）。

目标输入：我们将互换使用这个术语来描述解码器中的输入字符串（句子集）或序列。

介绍

Transformer是一种基于注意力的自然语言处理 (NLP) 架构，一年前在《 Attention Is All You Need》一文中介绍了这一架构。

在这篇博文中，我们将深入研究解码器；BERT 中未使用的Transformer 架构部分。我们将参考Encoder来解释完整的Transformer架构。

注意：如果您只想了解 BERT 的工作原理，则本博文中描述的Transformer部分不相关。

这篇文章的结构安排如下：

Transformer旨在解决的问题。
信息流。
解码器。

问题

Transformer解决的问题是翻译。要将句子翻译成另一种语言，我们希望我们的模型能够：

能够捕捉输入句子中单词之间的关系。
将输入句子中包含的信息与每一步已翻译的信息结合起来。

想象一下，目标是将一个句子从英语翻译成西班牙语，我们得到以下标记序列：

X = [‘Hello’, ‘,’, ‘how’, ‘are’, ‘you’, ‘?’] (输入序列) Y = [
‘Hola’, ‘,’, ‘como’, ‘estas’, ‘?’]（目标序列）

首先，我们希望通过组合序列中每个单词的信息来处理输入序列*X中的信息。*这是在编码器内部完成的。

一旦我们在编码器的输出中获得了这些信息，我们就希望将其与目标序列结合起来。这是在解码器中完成的。

编码器和解码器是Transformer架构的特定部分，如图 1 所示。我们将在第 3-b 级：层中详细研究解码器。

信息流

该架构的数据流如下：

该模型将每个标记表示为维度emb_dim的向量。然后，我们得到特定输入序列的维度*(input_length) x (emb_dimb)矩阵。*
然后它添加位置信息（位置编码）。*此步骤将返回维度(input_length) x (emb_dim)*的矩阵，就像上一步一样。
数据经过 N 个编码器块。之后，我们获得维度为*(input_length) x (emb_dim)*的矩阵。
目标序列被屏蔽并通过相当于 1) 和 2) 的解码器发送。输出的尺寸为*(target_length) x (emb_dim)*。
4)的结果经过N个解码器块。在每次迭代中，解码器都使用编码器的输出 3)。这在图 2 中用从编码器到解码器的箭头表示。输出的尺寸为*(target_length) x (emb_dim)*。
最后，它应用了全连接层和行式 softmax。输出的维度为*(target_length) x (vocab_size)。*