cross attention交叉熵注意力机制

最新推荐文章于 2026-03-10 02:56:06 发布

原创

最新推荐文章于 2026-03-10 02:56:06 发布 · 2.7k 阅读

·

10

·

文章标签：

#自然语言处理 #深度学习 #人工智能

交叉注意力(Cross-Attention)则是在两个不同序列上计算注意力，用于处理两个序列之间的语义关系。在两个不同的输入序列之间计算关联度和加权求和的机制。具体来说，给定两个输入序列，cross attention机制将一个序列中的每个元素与另一个序列中的所有元素计算关联度，并根据关联度对两个序列中的每个元素进行加权求和。这样的机制使模型能够建立不同序列之间的关联关系，并将两个序列的信息融合起来。例如，在翻译任务中，需要将源语言句子和目标语言句子进行对齐，就需要使用交叉注意力来计算两个句子之间的注意力权重。

交叉注意力机制是一种特殊形式的多头注意力，它将输入张量拆分成两个部分 $X1\epsilon R^{n*d1}$ 和 $X2\epsilon R^{n*d2}$ ，然后将其中一个部分作为查询集合，另一个部分作为键值集合。它的输出是一个大小为 $n*d2$ 的张量，对于每个行向量，都给出了它对于所有行向量的注意力权重。

令 $Q=X_{1} W^{Q}$ 和

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。