attention mechanis 的数学理解

博客指出attention本质是加权求和,从算法本质看是三次矩阵运算,帮助读者深入理解attention的核心原理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

参考链接

attention其实就是一个加权求和

import numpy as np
import tensorflow as tf

a=np.array((list(range(3*4)))).reshape((3,4))*1.0
b=a+3.0
katten=tf.keras.layers.Attention()(
    [a, b
    ])

print('keras attention=',katten)

从算法本质上理解attention ,就是三次矩阵运算

weight=a@b.T
weight1=tf.nn.softmax(weight)
attent=weight1@b

print('my attention=',attent)
keras attention= tf.Tensor(
[[11. 12. 13. 14.]
 [11. 12. 13. 14.]
 [11. 12. 13. 14.]], shape=(3, 4), dtype=float32)
my attention= tf.Tensor(
[[11. 12. 13. 14.]
 [11. 12. 13. 14.]
 [11. 12. 13. 14.]], shape=(3, 4), dtype=float64)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值