序言
作为非算法同学,最近被Cursor、DeepSeek搞的有点焦虑,同时也非常好奇这里的原理,所以花了大量业余时间自学了Transformer并做了完整的工程实践。希望自己心得和理解可以帮到大家~
如有错漏,欢迎指出~
本文都会以用Transformer做中英翻译的具体实例进行阐述。
从宏观逻辑看Transformer
让我们先从宏观角度解释一下这个架构。
首先 Transformer也是一个神经网络,神经网络的本质是模拟人脑神经元的思考过程,数学上是一种拟合,当然,人脑内部的信号处理是否连续或者可拟合我们不得而知,但Transformer在我的机器上实实在在地思考并输出了正确的答案。
Transformer 主要是设计用来做翻译的,分两大块,如上图,左边的编码器和右边的解码器。
编码器负责提取原文的特征, 解码器负责提取当前已有译文序列的特征,并结合原文特征(编码器解码器的连线部分),给出下一个词的预测。
GPT基本可以认为就是Transfor