CV-transformer

JiangYueHan2

于 2021-10-17 18:57:44 发布

阅读量374

点赞数

CC 4.0 BY-SA版权

文章标签： transformer

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/JiangYueHan2/article/details/120788649

该博客详细介绍了Transformer模型的结构，包括embedding、位置编码、编码器和解码器的工作原理，尤其是注意力机制、多头注意力和规范化层的作用。重点阐述了编码器的内部工作流程以及解码器如何利用编码器的输出和自身预测生成序列的下一个结果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.内容简述

1.1模型结构概览

2.模型输入

2.1 embedding（嵌入）

定义：某种格式的输入数据（如文本）转变为模型可以处理的向量表示，来描述原始数所包含的信息。

embedding层输出的结果为当前时间步的特征。其核心是借助torch提供的nn.Embedding.

2.2 positional Embedding(位置编码)

目的：为模型提供当前时间步的前后出现顺序的信息。（在本文中使用固定的位置变量）

pos：时间步下标编码

PEpos ：第pos个时间步的位置编码

i:代表positional embedding的维度

model：时间长度和embedding层相同（512)

2.3 Encoder(编码器)和Decorder（解码器）

2.3.1相同点

输入结构相同,都是6层编码组件。

2.3.2不同点

推理时用法不同：Encorder只推理一次，Decorder类似Run那样循环推理不断生成预测结果.

encoder输入结果：1.用来生成Encoder自注意的mask，2.在多头自注意中计算Q、K、V矩阵

2.3.3 encorder（编码器）

定义：对输入进行特征提取，

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。