深入理解 Transformer 结构，此篇 PyTorch 实现为你解惑 ——PyTorch 实现 Transformer 应用实例展示

本文链接：https://blog.csdn.net/DAMOXINGHAITAI/article/details/143069995

下面分享一篇实验室翻译的来自哈佛大学一篇关于Transformer的详细博文。

“Attention is All You Need”[1] 一文中提出的Transformer网络结构最近引起了很多人的关注。Transformer不仅能够明显地提升翻译质量，还为许多NLP任务提供了新的结构。虽然原文写得很清楚，但实际上大家普遍反映很难正确地实现。

所以我们为此文章写了篇注解文档，并给出了一行行实现的Transformer的代码。本文档删除了原文的一些章节并进行了重新排序，并在整个文章中加入了相应的注解。此外，本文档以Jupyter notebook的形式完成，本身就是直接可以运行的代码实现，总共有400行库代码，在4个GPU上每秒可以处理27,000个tokens。

想要运行此工作，首先需要安装PyTorch[2]。这篇文档完整的notebook文件及依赖可在github[3] 或 Google Colab[4]上找到。

需要注意的是，此注解文档和代码仅作为研究人员和开发者的入门版教程。这里提供的代码主要依赖OpenNMT[5]实现，想了解更多关于此模型的其他实现版本可以查看Tensor2Tensor[6] (tensorflow版本) 和 Sockeye[7](mxnet版本)

Alexander Rush (@harvardnlp[8] or [email protected])

0. 准备工作


`# !pip install http://download.pytorch.org/whl/cu80/torch-0.3.0.post4-cp36-cp36m-linux_x86_64.whl numpy matplotlib spacy torchtext seaborn`

内容目录

准备工作

背景

模型结构

- Encoder和Decoder

- Encoder

- Decoder

- Attention

- Attention在模型中的应用

- Position-wise前馈网络

- Embedding和Softmax

- 位置编码

- 完整模型

（由于原文篇幅过长，其余部分在下篇）

训练

- 批和掩码

- 训练循环

- 训练数据和批处理

- 硬件和训练进度

- 优化器

- 正则化

- 标签平滑

第一个例子

- 数据生成

- 损失计算

- 贪心解码

真实示例

- 数据加载

- 迭代器

- 多GPU训练

- 训练系统附加组件：BPE，搜索，平均

结果

- 注意力可视化

结论

本文注解部分都是以引用的形式给出的，主要内容都是来自原文。

深入理解 Transformer 结构，此篇 PyTorch 实现为你解惑 ——PyTorch 实现 Transformer 应用实例展示

0. 准备工作

</