1.内容简述
1.1模型结构概览
2.模型输入
2.1 embedding(嵌入)
定义:某种格式的输入数据(如文本)转变为模型可以处理的向量表示,来描述原始数所包含的信息。
embedding层输出的结果为当前时间步的特征。其核心是借助torch提供的nn.Embedding.
2.2 positional Embedding(位置编码)
目的:为模型提供当前时间步的前后出现顺序的信息。(在本文中使用固定的位置变量)
pos:时间步下标编码
PEpos :第pos个时间步的位置编码
i:代表positional embedding的维度
model:时间长度和embedding层相同 (512)
2.3 Encoder(编码器)和Decorder(解码器)
2.3.1相同点
输入结构相同,都是6层编码组件。
2.3.2不同点
推理时用法不同:Encorder只推理一次,Decorder类似Run那样循环推理不断生成预测结果.
encoder输入结果:1.用来生成Encoder自注意的mask,2.在多头自注意中计算Q、K、V矩阵
2.3.3 encorder(编码器)
定义:对输入进行特征提取,