作者:禅与计算机程序设计艺术
1.简介
自从机器翻译、图片识别、音频合成等各种领域涌现出的大量数据以及计算能力,深度学习(Deep Learning)在各个领域都取得了巨大的成功。但是,传统的神经网络结构仍然存在一些局限性:
-
过多的耦合:传统神经网络模型中参数之间高度耦合,难以学习到长距离依赖关系;
-
时延性:传统神经网络的时延性较高,即输入到输出的时间间隔比较长,无法处理实时性要求较高的场景;
-
可解释性差:传统神经网络模型的参数难以理解,不能通过可视化的方式直观了解其工作机制,不利于模型优化和调试。
为了克服这些局限性,近年来出现了以Attention机制为核心的新型神经网络模型,例如Google提出的BERT、Facebook提出的GPT-2等。这些模型基于注意力机制进行改进,能够学习到更丰富的上下文信息,有效解决了传统神经网络模型所面临的三个问题。另外,新的模型结构也使得模型训练更加容易,并提供了模型预测的速度。
Attention Is All You Need(缩写为“Transformer”),是一类基于Transformer的模型,它的主体是Encoder-Decoder结构,其中编码器负责输入序列到表征向量的映射,解码器则负责将表征向量转变为输出序列。不同于之前的神经网络模型,Transformer模型完全利用注意力机制,其不同之处在于:
-
强大的模型大小:Transformer模型相比于之前的模型,在参数数量和层数上都有着显著的增加;
-
更强的并行