为什么训大模型都不用dropout_为什么现在大模型选择抛弃掉dropout呢?-CSDN博客

本文链接：https://blog.csdn.net/bagell/article/details/147896107

昨天在一个讨论群里有朋友提到了这个问题。

这个问题很有意思，训大模型不用dropout属于现在大家的默契了。

我总结三点

1.效果不行

这块是大家实践出来的，dropout在设计之初就有一个致命问题。训练和推理的行为不一致，为了让他尽量一致，选择了一个scale的方案，scale的方案可以使得推理时tensor的均值和训练一致。但这也仅仅使得均值一致，从一个分布上来讲，连方差都不一样。更不要提其他的细致的分布刻画了。

在小模型小数据时代，神经网络还在闹着玩，噪声，过拟合，标签质量，相爱相杀，dropout在一些场景有用武之地。

其实在7、8年前我上学的时候，打比赛时候就发现dropout的一些缺点。比如回归等数值和分布敏感的问题上，有两个经典的trick，一个是标签转换(把销量预测的值域转换到0到1，这玩意连lightgbm都有用)，一个就是去掉dropout，尤其是类似文章打分这样的场景。

大模型时代，噪声，过拟合，数据质量，数据量，这些小模型困扰大家的问题，都不存在了。大模型的玩法变成了猛猛加大模型，猛猛洗数据，猛猛过拟合。你说把全世界的数据都训完，都开始训合成数据了，这个老生常谈的泛化和记忆它还有纠结的意义吗？

大模型就是死记硬背，什么涌现那都是背的到位了。

2.效率不行

要舍弃一些参数的学习，那我就要用训练epoch和数据量来弥补，这个玩意前面也提到了，大模型不一样了。显卡我都不够，还需要一个核电站供电，你给我说我要削减20%到50%的参数？你知道我买这么数据得多少钱吗？招聘这么多人才996结果，你给我说大模型放松一下，坏了，比别人实验慢了。那不是相当于极大的debuff

3.稳定性不行

由于1和2的共同存在，导致训练和评估之间总有gap，连基本线上线下一致性都不太好保证，违背祖训啊大哥！怎么搜参数做scaling law，推导出的参数结论不靠谱那又白做了，又是一个debuff。

大模型训练已经进入了一个追求确定性的时代，用小模型的参数推演大模型，追求数据量，参数量，数据质量。所有的链条都在想怎么调高效率。

还有朋友问，为啥还用normlization啊？那玩意不一样，除了众所周知的好处之外，那玩意最起码还多了一点点参数呢，还是有用的。大家只不过在琢磨挪前面还是挪后面，没有必要砍掉。

关于dropout的问题，其实还真有人研究过，让他的不一致行为分布变得一致，也就是alpha dropout，但这玩意，也只是尽力而已，现在很多框架已经把把这个放进去了，但大家用的还是不多，在一致性和效率，稳定性上多多少少还有些问题，或者按下葫芦起了瓢。这个在百面大模型里有专门一节将这个问题和详细的“改进”方法。

在这里插入图片描述