1.极端值处理
1.1 极端值定义
极端值也称离群值,可能会影响模型精度,进而影响预测结果。
极端值对于不同的模型,影响不同,虽然处理极端值并不是数据预处理的必经流程,但是我们需要知道极端值的存在对最终结果的影。
一般回归模型对极端值非常敏感,需要处理。而决策树,KNN对极端值影响并不大,可以选择不处理。
1.2 极端值的检测
检测极端值有很多方法,最直观的就是可视化检测。
###如何量化判断极端值呢?
###我们一般将三个标准差以外的值称为极端值。
1.3极端值的处理
(1)删除极端值:
如果数据量足够大,而极端值只是少数,我们可以选择将极端值删去。
例如个别持卡人的年龄超过85岁,这个数据本身就是很少数的情况,所以可以删除
(2)人为调整:
但是如果数据样本很少,不能轻易删除数据,那可以选择人为降低极端值到某个正常值范围内,例如用95%分为点的值代替。
(3)单独建立模型:
例如信用可额度特别高。
2.缺失值处理
2.1缺失值的种类
(1)完全随机缺失:缺失值和其他变量没有关系,比如婚姻状况的缺失
&#x