文章目录
1 摘要
1.1 核心
提出一个仅需要self attention + linear组合成encoder+decoder的模型架构
2 模型架构
2.1 概览
2.2 理解encoder-decoder架构
2.2.1 对比seq2seq,RNN
Self Attention
- 输入token转为特征输入
- shape [n(序列长度), D(特征维度)] 输入
- 进入attention模块
- 输出 shape [n(序列长度), D1(特征维度)] 此时每个D1被N个D做了基于attention weight的加权求和
- 进入MLP
- 输出 shape [n(序列长度), D2(输出维度)] 此时每个D2被D2和MLP weight矩阵相乘
- 每个D2转换为输出token
RNN
- 34步去除,并将每次MLP的输入修改为前一个Kt-1组合Kt输入
2.2.2 我的理解
把卷积核的滑动窗口修改成了不用滑动的全局大小窗口,但同时能高效的进行(1次矩阵乘法)特征提取。
CNN可以多通道拓展(增加)特征表征方式(修改卷积核个数),自注意力需要增加多头机制。