
算法面试
文章平均质量分 90
flying_1314
2025持续分享前沿文章~敬请期待~
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
面试常问系列(一)-神经网络参数初始化-之自注意力机制为什么除以根号d而不是2*根号d或者3*根号d
通过上述的不同缩放比例,大家应该可以比较清晰的发现,以一个标准差(68.26%)为例,随着缩放比例加大,变化范围减小,点击值被过度压缩,导致相对趋于均匀,从而无法很好的捕捉不同特征之间的差异,趋于大家都一样的感觉,区分度被缩小。大家感兴趣的可以实操看一下,softmax在不同缩放比例下的分布情况。原创 2025-05-06 19:05:57 · 713 阅读 · 0 评论 -
面试常问系列(一)-神经网络参数初始化之自注意力机制
除以dk的本质是对点积结果进行方差归一化,确保Softmax的输入值不会随维度增大而失控,从而保持梯度稳定,提升训练效率和模型性能。这一设计是Transformer高效训练的关键细节之一。原创 2025-03-23 23:36:15 · 1291 阅读 · 0 评论 -
面试常问系列(一)-神经网络参数初始化-之-softmax
Softmax的梯度对输入值敏感,过大输入会导致梯度消失。Transformer通过除以dk控制点积方差,确保Softmax输入值合理,从而保持梯度稳定,提升训练效率。这一设计是深度学习中处理高维数据时的重要技巧。原创 2025-05-06 18:15:48 · 1061 阅读 · 0 评论 -
面试常问系列(一)-神经网络参数初始化
Xavier初始化解决的是饱和激活函数(sigmoid/tanh)\但是针对非饱和激活函数,relu等无效。那么针对于relu这种激活函数该怎么办呢?可以使用kaiming初始化。原创 2025-03-23 17:10:20 · 1198 阅读 · 0 评论