建筑兔零基础人工智能自学记录101|Transformer(1)-14

Transformer

谷歌提出,一组编码-解码器

可以同时处理,通过位置编码来处理单词

实质是token词语接龙(只是有不同的概率)

token对应向量

Transformer简述

 文生图就需要用到transformer黑箱

 

token

 

内部层次

中间主要是embedding matrix嵌入矩阵、attention注意力模块、multilayer perception多层感知机(MLP)

attention注意力模块内部是互相交流的、multilayer perception多层感知机(MLP)内部是并行不交流的

 

 

   

本质就是线性代数

 

 

 

实质通过矩阵运算

 有不同的矩阵

 嵌入矩阵

 如何推测的举例:1、男人之于女人≈国王之于王后

 如何推测的举例:2、妈妈之于爸爸≈ 女人之于男人

                             3、希特勒+意大利-德国≈ 墨索里尼(从轴心国领导人/意大利两个角度找到)

                             4、寿司+德国-日本≈ 油煎香肠

 点积是表达两个向量是否相近的方式,通过运算结果正负判断

 

 context size就是一次处理向量的数量

 

所以当context size较少时,gpt会出现遗忘了之前说的

解嵌入矩阵

 softmax

补充:另一个transformer介绍,不是很生动。所以只看了开头。

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值