深度学习:Transformer注意力机制-1

一、注意力机制

1、注意力机制及特点

注意力机制模仿人类观察复杂场景时选择性关注关键部分、忽略不重要区域的行为。在深度学习里,它使模型可依据输入数据,动态给不同部分分配注意力权重,进而更高效捕捉关键特征。例如在自然语言处理中处理句子时,能让模型明确哪些词汇对理解句子含义或完成特定任务(如翻译、情感分析)更为关键,并着重关注这些词汇。

注意力机制的特点​:

(1)  并行计算

Transformer 的注意力机制不依赖序列顺序,可同时处理序列中所有元素,支持高度并行化计算,极大加快训练速度,远快于传统依赖序列顺序处理的循环神经网络(RNN)。比如在处理长文本时,RNN 需依次处理每个单词,而 Transformer 可并行处理,大大缩短处理时间。​

(2) 捕捉长距离依赖

能让模型在处理某个元素时关注序列中所有其他元素,有效捕捉长距离依赖关系,解决传统 RNN 处理长序列时难以捕捉远距离元素间关联的难题。以分析长句子语法结构为例,可直接计算相隔较远词汇间的相关性,准确把握句子整体结构和语义。​

(3) 动态权重分配

注意力权重根据输入动态计算,模型能自适应调整对不同位置信息的关注程度,在不同任务和输入下灵活聚焦关键信息。例如在机器翻译中,翻译不同句子时,能依据源语言句子内容,动态确定对每个词汇的关注重点,提升翻译准确性。​

(4) 多头注意力增强表示

多头注意力机制通过并行多个注意力头,从不同表示空间学习更多信息,增强模型表示能力。每个头独立计算自注意力,结果拼接后经线性变换结合,使模型可识别多种词汇关系,从序列多种表现形式学习,提升运算效率和并行处理能力。如分析句子时,不同头可分别关注主谓、动宾、名形等关系。

2、注意力机制的计算公式

注意力机制的核心是 缩放点积注意力(Scaled Dot-Product Attention),其公式为:

注意力机制的计算过程:

通俗的解释:

在Transformer的注意力机制中,Q(Query)、K(Key)、V(Value) 是三个核心矩阵,分别代表“问题”、“钥匙”和“值”。它们的作用可以用一个图书馆找书的例子来直观理解:

假设你在图书馆(输入信息)找书,步骤如下:

【1】Query(你的需求):

  你说:“我想找一本讲深度学习的书。”(这是你的查询意图,对应 Q)

【2】 Key(书的标签):

图书馆每本书有一个标签,比如:

书A标签:“深度学习-理论”

书B标签:“Python-入门”

书C标签:“深度学习-实战”

这些标签是 K,用于匹配你的需求。

【3】Value(书的内容):

书A的内容:300页理论推导(这是 V)

书B的内容:200页基础语法(这是 V)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数字化与智能化

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值