第十章(4):Transformer之Layer Normalization与Transformer整体结构
作者:安静到无声 个人主页
欢迎大家来到安静到无声的 《基于pytorch的自然语言处理入门与实践》,如果对所写内容感兴趣请看《基于pytorch的自然语言处理入门与实践》系列讲解 - 总目录,同时这也可以作为大家学习的参考。欢迎订阅,请多多支持!
目录
1. 前言
按照顺序将要介绍Layer Normalization,谈起这个模块,就会想起CV领域比较重要BN层 ,被称为批归一化,它具有加快训练速度、防止过拟合等优点。可是,在NLP领域应用更为广泛的是Layer Normalization。在最后我们介绍Encoder和Deconder的整体结构。