最近会更新一个深度学习面试中常见问题,及相应的答案,希望对找工作的朋友有所帮助,总结不易,欢迎持续关注。公众号:羽峰码字,欢迎来撩。
目录
6.梯度爆炸,梯度消失,梯度弥散是什么,为什么会出现这种情况以及处理办法
1.如何处理样本不均衡问题
a. 样本的过采样和欠采样
欠采样 :随机删除观测数量足够多的类,使得两个类别间的相对比例是显著的。虽然这种方法使用起来非常简单,但很有可能被我们删除了的数据包含着预测类的重要信息。
过采样 :对于不平衡的类别,我们使用拷贝现有样本的方法随机增加观测数量。理想情况下这种方法给了我们足够的样本数,但过采样可能导致过拟合训练数据。
过采样和欠采样结合
合成采样( SMOTE ):
1. 基于距离度量的方式计算两个或者多个稀有样本之间的相似性
2. 选择其中一个样本作为基础样本
3. 再在邻居样本中随机选取一定数量的样本对那个基础样本的一个属性进行噪声,每次处理一个属性。通过这样的方式产生新数据。
b. 使用多分类器进行分类
方法一中介绍的过采样,欠采样,都存在相应的问题。
过采样:可能会存在过拟合问题。(可以使用SMOTE算法,增加随机的噪声的方式来改善这个问题)
欠采样:可能会存在信息减少的问题。因为只是利用了一部分数据,所以模型只是学习到了一部分模型。
有以下两种方法可以解决欠采样所带来的问题。
方法一:模型融合 (bagging的思想 )
思路:从丰富类样本中随机的选取(有放回的选取)和稀有类等量样本的数据。和稀有类样本组合成新的训练集。这样我们就产生了多个训练集,并且是互相独立的,然后训练得到多个分类器。
若是分类问题,就把多个分类器投票的结果(少数服从多数)作为分类结果。
若是回归问题,就将均值作为最后结果。
方法二:增量模型 (boosting的思想)
思路:使用全部的样本作为训练集,得到分类器L1
从L1正确分类的样本中和错误分类的样本中各抽取50%的数据,即循环的一边采样一个。此时训练样本是平衡的。训练得到的分类器作为L2.
从L1和L2分类结果中,选取结果不一致的样本作为训练集得到分类器L3.
最后投票L1,L2,L3结果得到最后的分类结果。
c. 将二分类问题转成其他问题
可以将不平衡的二分类问题转换成异常点检测,或者一分类问题(可使用one-class svm建模)
d.改变正负样本在模型中的权重