1. 数据预处理
1.1 极端的处理
1、人为截断,高于某一阈值的数据,统一等于某一个数
2、删除极端值
3、单独建模型
1.2 缺失值的处理
1.2.1 种类:
1、完全随机缺失
2、随机缺失,依赖其他变量,如‘配偶姓名’的缺失取决于‘婚姻状况’
3、完全非随机缺失:缺失值是由于本身缺陷导致,如年龄较低的信用卡办卡人员不愿意透露父母亲的电话。
1.2.2 处理方法:
1、删除缺失值的属性
2、插补填充(常用于完全随机缺失且缺失度不高的情形中)
3、将缺失值当成一种属性值(常用于随机缺失)
1.2.3 连续变量缺失值的处理
一、对于完全随机缺失,当缺失率不高时,可以:
1、用常数不缺,例如均值,如果存在极端值,要考虑是否要剔除极端值后再计算均值
2、从非缺失值中随机抽样赋予缺失样本
二、对于随机缺失,可以在同一层内,用完全随机缺失的方法进行补全。
例如:在有无工作的类别下,有工作的人群中工资样本缺失,可以用有工作人群的工资平均值进行填补
三、对于完全非随机缺失,可以当成 一种属性,将该变量转化成类别变量
1.2.4 类别变量缺失值的处理
一、当缺失率很低时:
1、用最常出现的类别补缺
2、从已知样本中随机抽样
二、当缺失率很高时:
考虑剔除该变量
三、当缺失率介于很高和很低时:
可以当成一种