
深度学习
文章平均质量分 61
。。。904
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
深度学习中的优化器
学习率是各类优化算法中最为关键的参数之一学习率调节器的作用是在训练过程中动态地调整学习率。原创 2025-02-10 13:04:53 · 1022 阅读 · 0 评论 -
Dropout的实际是如何运作的
虽然我们在学习dropout时,说的是将某些神经元置为0,但是实际上是将该神经元的输出置为0,从而在反向传播中,该神经元的梯度就会为0(同时也会让经过dropout的输出整体乘以1/(1-p),使得该层输出的整体期望不变)达到阻止该神经元不更新的目的,提高模型的泛化能力。而在模型推理时,也就是model.eval()时,则会自动组织nn.Dropout层将会自动失效。Dropout通过将该层的输出部分置为0的操作来使得该输出对应的神经元在反向传播中梯度等于0,从而达到阻止该神经元更新的目的。原创 2025-01-15 17:55:57 · 128 阅读 · 0 评论 -
最简单的GPT问答实现
transformer架构GPT架构。原创 2024-12-12 12:57:08 · 743 阅读 · 0 评论 -
关于tensor计算中的维度问题
dim=-1时指运算沿着该对应维度编号增长的方向进行运算,比如在一个二维tensor中,如果想要计算每一行中最大的数值是什么,则需要令dim=-1,让运算按着列号增长的方向进行运算。在遇到张量计算中对于dim=-1时,计算的结果产生了疑惑,故因此记录。原创 2024-12-11 10:39:31 · 209 阅读 · 0 评论