ML之FE:金融风控—基于预处理(PSI+标签编码+文本型抽数字+缺失值RF模型拟合填充)+多种筛选指标(PCA/IV值/Gini/熵/丰富度)利用CatBoost实现贷款违约二分类预测案例之详细攻略
目录
基于预处理(PSI+标签编码+文本型抽数字+缺失值RF模型拟合填充)+多种筛选指标(PCA/IV值/Gini/熵/丰富度)利用CatBoost实现贷款违约二分类预测案例
# 1.1、根据统计量查看数据特点(包括缺失值)并直接删除不必要字段(类似ID的唯一型字段)
# 2.2、分析训练集和测试集的特征分布差异——是否为同分布
# 2.4.1、枚举值型字段执行标签编码:grade、subGrade字段
# 2.4.2、文本型日期字段拆解提取年份、月份:issueDate、earliesCreditLine字段
# 2.4.3、文本型仅抽取数字+缺失值RF模型拟合填充:employmentLength字段
# 2.5、【数字型】缺失值填充:鉴于平均值易受极值影响,数值变量用中位数填充
三、基于预处理/特征工程后的数据利用各种筛选指标(PCA、IV值、Gini基尼指数、熵、丰富度等)特征筛选进而实现分类预测
# B2.2.2、基于IV值等指标分析各个特征的重要性:IV值、Gini基尼指数、熵、丰富度
# T2、执行K折交叉验证划分训练/测试集:适合大量数据的场景,但比较耗时
相关文章
ML之FE:金融风控—基于预处理(PSI+标签编码+文本型抽数字+缺失值RF模型拟合填充)+多种筛选指标(PCA/IV值/Gini/熵/丰富度)利用CatBoost实现贷款违约二分类预测案例之详细攻略
ML之FE:金融风