首页李宏毅深度学习transformer笔记

李宏毅深度学习transformer笔记

时间: 2025-01-10 13:16:03 浏览: 69

### 李宏毅深度学习Transformer笔记概述在李宏毅教授的深度学习课程中，对于Transformer架构有详细的介绍。该模型摒弃了传统的RNN结构，完全依赖于注意力机制来捕捉输入和输出之间的全局依赖关系[^2]。 #### Cross Attention机制解析特别值得注意的是，在计算Attention的过程中，查询矩阵\( Q \)来源于解码器(Decoder)，而键矩阵\( K \)和值矩阵\( V \)则来自于编码器(Encoder)。这种特定类型的Attention被定义为跨模态注意(Cross Attention)，它允许解码端有效地关注到编码端的不同位置上重要的特征表示。 ```python import torch.nn as nn class MultiHeadedAttention(nn.Module): def __init__(self, h, d_model, dropout=0.1): "Take in model size and number of heads." super(MultiHeadedAttention, self).__init__() assert d_model % h == 0 # We assume d_v always equals d_k self.d_k = d_model // h self.h = h self.linears = clones(nn.Linear(d_model, d_model), 4) self.attn = None self.dropout = nn.Dropout(p=dropout) def forward(self, query, key, value, mask=None): ... ``` 此代码片段展示了多头注意力层的一个简化实现方式，其中包含了线性变换以及后续处理逻辑。通过调整参数`h`可以控制并行执行的关注力的数量；而在实际应用时，则会依据具体任务需求设置合适的维度大小。

阅读全文