【深度学习面试八股文】-- 1-5

最近会更新一个深度学习面试中常见问题,及相应的答案,希望对找工作的朋友有所帮助,总结不易,欢迎持续关注。公众号:羽峰码字,欢迎来撩。

目录

1.如何处理样本不均衡问题

2.数据增强方法

3.过拟合的解决办法

4. 正则化

5. 激活函数

6.梯度爆炸,梯度消失,梯度弥散是什么,为什么会出现这种情况以及处理办法


1.如何处理样本不均衡问题

a. 样本的过采样和欠采样

欠采样 :随机删除观测数量足够多的类,使得两个类别间的相对比例是显著的。虽然这种方法使用起来非常简单,但很有可能被我们删除了的数据包含着预测类的重要信息。

过采样对于不平衡的类别,我们使用拷贝现有样本的方法随机增加观测数量。理想情况下这种方法给了我们足够的样本数,但过采样可能导致过拟合训练数据。

过采样和欠采样结合

合成采样( SMOTE ):

    1. 基于距离度量的方式计算两个或者多个稀有样本之间的相似性

    2. 选择其中一个样本作为基础样本

    3. 再在邻居样本中随机选取一定数量的样本对那个基础样本的一个属性进行噪声,每次处理一个属性。通过这样的方式产生新数据。

b. 使用多分类器进行分类

 方法一中介绍的过采样,欠采样,都存在相应的问题。

  过采样:可能会存在过拟合问题。(可以使用SMOTE算法,增加随机的噪声的方式来改善这个问题)

  欠采样:可能会存在信息减少的问题。因为只是利用了一部分数据,所以模型只是学习到了一部分模型。

  有以下两种方法可以解决欠采样所带来的问题。

  方法一:模型融合 (bagging的思想 )

  思路:从丰富类样本中随机的选取(有放回的选取)和稀有类等量样本的数据。和稀有类样本组合成新的训练集。这样我们就产生了多个训练集,并且是互相独立的,然后训练得到多个分类器。

     若是分类问题,就把多个分类器投票的结果(少数服从多数)作为分类结果。

     若是回归问题,就将均值作为最后结果。

  方法二:增量模型 (boosting的思想)

  思路:使用全部的样本作为训练集,得到分类器L1

     从L1正确分类的样本中和错误分类的样本中各抽取50%的数据,即循环的一边采样一个。此时训练样本是平衡的。训练得到的分类器作为L2.

     从L1和L2分类结果中,选取结果不一致的样本作为训练集得到分类器L3.

     最后投票L1,L2,L3结果得到最后的分类结果。

c. 将二分类问题转成其他问题

可以将不平衡的二分类问题转换成异常点检测,或者一分类问题(可使用one-class svm建模)

d.改变正负样本在模型中的权重

评论 50
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

羽峰码字

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值