深度学习：Transformer注意力机制-1-CSDN博客

一、注意力机制

注意力机制模仿人类观察复杂场景时选择性关注关键部分、忽略不重要区域的行为。在深度学习里，它使模型可依据输入数据，动态给不同部分分配注意力权重，进而更高效捕捉关键特征。例如在自然语言处理中处理句子时，能让模型明确哪些词汇对理解句子含义或完成特定任务（如翻译、情感分析）更为关键，并着重关注这些词汇。

注意力机制的特点：

(1) 并行计算

Transformer 的注意力机制不依赖序列顺序，可同时处理序列中所有元素，支持高度并行化计算，极大加快训练速度，远快于传统依赖序列顺序处理的循环神经网络（RNN）。比如在处理长文本时，RNN 需依次处理每个单词，而 Transformer 可并行处理，大大缩短处理时间。

(2) 捕捉长距离依赖

能让模型在处理某个元素时关注序列中所有其他元素，有效捕捉长距离依赖关系，解决传统 RNN 处理长序列时难以捕捉远距离元素间关联的难题。以分析长句子语法结构为例，可直接计算相隔较远词汇间的相关性，准确把握句子整体结构和语义。

(3) 动态权重分配

注意力权重根据输入动态计算，模型能自适应调整对不同位置信息的关注程度，在不同任务和输入下灵活聚焦关键信息。例如在机器翻译中，翻译不同句子时，能依据源语言句子内容，动态确定对每个词汇的关注重点，提升翻译准确性。

(4) 多头注意力增强表示

多头注意力机制通过并行多个注意力头，从不同表示空间学习更多信息，增强模型表示能力。每个头独立计算自注意力，结果拼接后经线性变换结合，使模型可识别多种词汇关系，从序列多种表现形式学习，提升运算效率和并行处理能力。如分析句子时，不同头可分别关注主谓、动宾、名形等关系。

注意力机制的核心是缩放点积注意力（Scaled Dot-Product Attention），其公式为：

注意力机制的计算过程：

通俗的解释：

在Transformer的注意力机制中，Q（Query）、K（Key）、V（Value）是三个核心矩阵，分别代表“问题”、“钥匙”和“值”。它们的作用可以用一个图书馆找书的例子来直观理解：

假设你在图书馆（输入信息）找书，步骤如下：

【1】Query（你的需求）：

你说：“我想找一本讲深度学习的书。”（这是你的查询意图，对应 Q）

【2】 Key（书的标签）：

图书馆每本书有一个标签，比如：

书A标签：“深度学习-理论”

书B标签：“Python-入门”

书C标签：“深度学习-实战”

这些标签是 K，用于匹配你的需求。

【3】Value（书的内容）：

书A的内容：300页理论推导（这是 V）

书B的内容：200页基础语法（这是 V）