13 Multi-Head Self-Attention（从空间角度解释为什么做多头）

沧海之巅

已于 2023-10-22 09:56:58 修改

阅读量187

点赞数

CC 4.0 BY-SA版权

分类专栏：数据中台管理体系数字孪生文章标签：语言模型人工智能

于 2023-10-21 16:55:32 首次发布

沧海之巅

本文链接：https://blog.csdn.net/linjie_830914/article/details/133963560

管理体系同时被 3 个专栏收录

72 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

44 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

21 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文回顾了自注意力的概念，并详细解释了多头自注意力的工作原理，强调了它如何通过将输入分块并在多个子空间中进行处理来增强词向量的表达能力，从而在机器学习任务中提升性能。多头自注意力机制通过非线性变换在高维空间中找到更合适的词向量位置，有助于理解和优化模型。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

上节课回顾

0：40

Attention

Self-Attention

Self-Attention 其实是 Attention 的一个具体做法

给定一个 X，通过自注意力模型，得到一个 Z，这个 Z 就是对 X 的新的表征（词向量），Z 这个词向量相比较 X 拥有了句法特征和语义特征

Multi-Head Self-Attention（多头自注意力）

Z 相比较 X 有了提升，通过 Multi-Head Self-Attention，得到的 $Z{'}$

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

沧海之巅 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。