Transformer动画讲解 - Cross Attention

最新推荐文章于 2025-06-21 00:45:00 发布

AI大模型探索者

最新推荐文章于 2025-06-21 00:45:00 发布

阅读量963

点赞数 14

CC 4.0 BY-SA版权

文章标签： transformer 深度学习人工智能语言模型 ai 机器学习 agi

编码器-解码器注意力：在“编码器-解码器注意力”层中，查询来自前一层解码器，而记忆键和值则来自编码器的输出。这使得解码器中的每个位置都能关注输入序列中的所有位置。这模仿了序列到序列模型中典型的编码器-解码器注意力机制。

（1）论文中对于编码器-解码器注意力的描述，让我们初步了解Encoder-Decoder Attention的Q来自前一层的解码器，K、V来自编码器的输出。

在这里插入图片描述

（2）当我们想深入了解，回到Transformer的架构图时，估计又懵逼了，怎么又变成Muti-Head Attention？

在这里插入图片描述

（3）新手的疑问：架构图中明明是Multi-Head Attention，论文中的描述又变为Encoder-Decoder Attention，怎么又冒出一个新名词Cross Attention？

在这里插入图片描述

Cross Attention：交叉注意力的输入来自两个不同的序列，一个序列用作查询（Q），另一个序列提供键（K）和值（V），实现跨序列的交互。
在这里插入图片描述

Self Attention vs Cross Attention：Self Attention更适用于处理单个序列，而Cross Attention则更适用于处理多个序列之间的交互。

输入来源：
Self Attention：其输入来自同一序列，即查询（Q）、键（K）和值（V）都来自编码器。这种机制关注于序列内部元素之间的关联。
Cross Attention：其输入来自不同的序列。解码器序列作为查询（Q），而编码器序列作为键（K）和值（V）。这种机制关注于不同序列之间的元素关联。
应用场景：
Self Attention：在自然语言处理任务中尤为常见，如语言建模、文本分类等。由于它关注的是序列内部元素之间的关联，因此特别适用于处理单个序列，如句子或段落。
Cross Attention：在自然语言处理、计算机视觉等领域都有应用，如机器翻译、图像描述生成等。它允许模型关注不同序列之间的元素关联，从而能够处理多个序列之间的交互。
作用机制：
Self Attention：通过对序列中的每个元素（如词或图像patch）生成一个表示，并使用这个表示作为查询去关注序列中的其他元素，从而计算出一个新的表示。这个过程有助于捕捉序列内部的依赖关系。
Cross Attention：在两个序列之间建立关联，一个序列的元素作为查询去关注另一个序列中的所有元素。这种机制允许模型在翻译或生成任务中关注源序列和目标序列之间的对应关系。

在这里插入图片描述

Cross Attention应用机器翻译：在机器翻译等序列到序列（Seq2Seq）的任务中，交叉注意力机制允许解码器在生成输出的每一步中，都能关注到输入序列中与当前步最相关的信息，从而生成更准确的输出。这种机制大大提高了Seq2Seq模型的性能，特别是在处理长序列和复杂依赖关系时。

准备输入数据：
通常有两个不同的输入序列，我们称之为源序列（Source Sequence）和目标序列（Target Sequence）。在机器翻译任务中，源序列可以是原文，而目标序列可以是译文的部分或全部。
生成查询（Query）、键（Key）和值（Value）：
对于交叉注意力，查询（Q）通常来自目标序列的某个元素或元素的表示。
键（K）和值（V）则来自源序列的元素或元素的表示。
这些表示通常是通过嵌入层（Embedding Layer）或者经过某种形式的编码器（Encoder）得到的。
计算注意力得分：
对于每一个目标序列中的查询（Q），计算它与源序列中所有键（K）的相似度或相关性得分。这通常通过点积、加性注意力或缩放点积等方式实现。
归一化注意力得分：
使用Softmax函数将得分转换成概率分布，这样每个源序列中的键（K）都会有一个与之对应的权重。
计算加权和：
使用上一步得到的权重对源序列中的值（V）进行加权求和，得到一个加权表示（也称为上下文向量）。
输出上下文向量：
这个加权表示（上下文向量）捕捉了源序列中与目标序列查询最相关的信息，并将其作为交叉注意力的输出。
使用上下文向量：
这个上下文向量随后可以被用于目标序列的下一个处理步骤，例如在解码器（Decoder）中用于生成下一个词或预测下一个状态。

在这里插入图片描述

最后

感谢你们的阅读和喜欢，我收藏了很多技术干货，可以共享给喜欢我文章的朋友们，如果你肯花时间沉下心去学习，它们一定能帮到你。

因为这个行业不同于其他行业，知识体系实在是过于庞大，知识更新也非常快。作为一个普通人，无法全部学完，所以我们在提升技术的时候，首先需要明确一个目标，然后制定好完整的计划，同时找到好的学习方法，这样才能更快的提升自己。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

我们学习AI大模型必然是想找到高薪的工作，下面这些面试题都是总结当前最新、最热、最高频的面试题，并且每道题都有详细的答案，面试前刷完这套面试题资料，小小offer，不在话下。
在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】