李宏毅深度学习transformer笔记
时间: 2025-01-10 13:16:03 浏览: 69
### 李宏毅深度学习Transformer笔记概述
在李宏毅教授的深度学习课程中,对于Transformer架构有详细的介绍。该模型摒弃了传统的RNN结构,完全依赖于注意力机制来捕捉输入和输出之间的全局依赖关系[^2]。
#### Cross Attention机制解析
特别值得注意的是,在计算Attention的过程中,查询矩阵\( Q \)来源于解码器(Decoder),而键矩阵\( K \)和值矩阵\( V \)则来自于编码器(Encoder)。这种特定类型的Attention被定义为跨模态注意(Cross Attention),它允许解码端有效地关注到编码端的不同位置上重要的特征表示。
```python
import torch.nn as nn
class MultiHeadedAttention(nn.Module):
def __init__(self, h, d_model, dropout=0.1):
"Take in model size and number of heads."
super(MultiHeadedAttention, self).__init__()
assert d_model % h == 0
# We assume d_v always equals d_k
self.d_k = d_model // h
self.h = h
self.linears = clones(nn.Linear(d_model, d_model), 4)
self.attn = None
self.dropout = nn.Dropout(p=dropout)
def forward(self, query, key, value, mask=None):
...
```
此代码片段展示了多头注意力层的一个简化实现方式,其中包含了线性变换以及后续处理逻辑。通过调整参数`h`可以控制并行执行的关注力的数量;而在实际应用时,则会依据具体任务需求设置合适的维度大小。
阅读全文
相关推荐



















