- 博客(6)
- 收藏
- 关注
原创 Transformer模型
1.在将输入向量进行self-attention之前,先加上Positional Encoding,也就是输入向量中的位置信息。2.Multi-Head Attention:进行Multi-Head的self-attention处理得到输出向量。3.Add & Norm (residual & layer normalization): 也就是将self-attention的输出加上它对应的输入然后对其进行Layer Normalization。
2025-06-26 14:44:57
1783
原创 自注意力机制
全连接网络的输入是一个向量,但是,就不能再使用全连接网络了。这种情况。基于卷积或循环网络的序列编码都是一种局部的编码方式,。虽然循环网络理论上可以建立长距离依赖关系,但是由于,实际上也只能建立短距离依赖关系。全连接网络是一种非常直接的建模远距离依赖的模型,但是如上边所说无法处理变长的输入序列。不同的输入长度(),其连接权重的大小也是不同的。这种情况我们就可以利用注意力机制来“动态”地生成不同连接地权重,即。:输出序列的长度为1,此时相当于一个分类人物,比如像对正面/负面评论的分析。
2025-06-26 12:47:08
1884
原创 反向传播(Backpropagation)
将正向传播中的损失函数传入反向传播过程,逐层求出损失函数对各神经元权重的偏导数,作为目标函数对权重的梯度。根据这个计算出来的梯度来修改权重,网络的学习在权重修改过程中完成。梯度下降法是训练神经网络的常用方法,许多的训练方法都是基于梯度下降法改良出来的。梯度下降法通过计算损失函数的梯度,并将这个梯度反馈给最优化函数来更新权重以最小化损失函数。是“误差反向传播”的简称,是适合于多层神经元网络的一种学习算法,它建立在。反向传播并不是用于学习整个神经网络的算法,而是仅用于计算梯度的算法。BP算法的学习过程由。
2025-06-26 11:40:25
371
转载 备战蓝桥杯 芯片测试
芯片测试# 有n块芯片,有好有坏,已知好芯片比坏芯片多。## 每个芯片都能用来测试其他芯片。用好芯片测试其他芯片时,能正确给出被测试芯片是好还是坏。而用坏芯片测试其他芯片时,会随机给出好或是坏的测试结果(即此结果与被测试芯片实际的好坏无关)。## 给出所有芯片的测试结果,问哪些芯片是好芯片。# 输入# 输入数据第一行为一个整数n,表示芯片个数。## 第二行到第n+1行为n*n的一张表,每行n个数据。表中的每个数据为0或1,在这n行中的第i行第j列(1≤i, j≤n)的数据表示用第i块芯.
2022-02-08 13:08:03
83
原创 备战蓝桥杯 字符串对比
给定两个仅由大写字母或小写字母组成的字符串(长度介于1到10之间),它们之间的关系是以下4中情况之一:1:两个字符串长度不等。比如 Beijing 和 Hebei2:两个字符串不仅长度相等,而且相应位置上的字符完全一致(区分大小写),比如 Beijing 和 Beijing3:两个字符串长度相等,相应位置上的字符仅在不区分大小写的前提下才能达到完全一致(也就是说,它并不满足情况2)。比如 beijing 和 BEIjing4:两个字符串长度相等,但是即使是不区分大小写也不能使这两个...
2022-02-07 21:18:20
85
原创 备战蓝桥杯 杨辉三角
n =int(input())k = 2triangle_yang = [] # 杨辉三角for i in range(n): # 定义空的杨辉三角 triangle_yang.append([0 for j in range(i+1)])# print(triangle_yang)# exit()for i in range(n): # 第一列和每一行的最后一个为1 triangle_yang[i][0] = triangle_yang[i][-1] = 1whi.
2022-02-07 20:34:56
55
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人