客户流失预警模型——数据预处理与特征衍生

1.  数据预处理

1.1  极端的处理 

1、人为截断,高于某一阈值的数据,统一等于某一个数

2、删除极端值

3、单独建模型

1.2  缺失值的处理

1.2.1  种类:

1、完全随机缺失

2、随机缺失,依赖其他变量,如‘配偶姓名’的缺失取决于‘婚姻状况’

3、完全非随机缺失:缺失值是由于本身缺陷导致,如年龄较低的信用卡办卡人员不愿意透露父母亲的电话。

1.2.2  处理方法:

1、删除缺失值的属性

2、插补填充(常用于完全随机缺失且缺失度不高的情形中)

3、将缺失值当成一种属性值(常用于随机缺失)

1.2.3  连续变量缺失值的处理

 一、对于完全随机缺失,当缺失率不高时,可以:

1、用常数不缺,例如均值,如果存在极端值,要考虑是否要剔除极端值后再计算均值

2、从非缺失值中随机抽样赋予缺失样本

二、对于随机缺失,可以在同一层内,用完全随机缺失的方法进行补全。

例如:在有无工作的类别下,有工作的人群中工资样本缺失,可以用有工作人群的工资平均值进行填补

三、对于完全非随机缺失,可以当成 一种属性,将该变量转化成类别变量

1.2.4  类别变量缺失值的处理

一、当缺失率很低时:

1、用最常出现的类别补缺

2、从已知样本中随机抽样

二、当缺失率很高时:

考虑剔除该变量

三、当缺失率介于很高和很低时:

可以当成一种

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值