ML之FE:金融风控—基于预处理(PSI+标签编码+文本型抽数字+缺失值RF模型拟合填充)+多种筛选指标(PCA/IV值/Gini/熵/丰富度)利用CatBoost实现贷款违约二分类预测案例之详细攻略

这篇博客介绍了如何利用预处理(PSI、标签编码、文本数字抽取、缺失值填充)和特征筛选(PCA、IV值、Gini、熵、丰富度)结合CatBoost模型,进行贷款违约的二分类预测。博主详细阐述了数据集的处理过程,包括数据预处理、特征工程、模型训练与评估。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

ML之FE:金融风控—基于预处理(PSI+标签编码+文本型抽数字+缺失值RF模型拟合填充)+多种筛选指标(PCA/IV值/Gini/熵/丰富度)利用CatBoost实现贷款违约二分类预测案例之详细攻略

目录

基于预处理(PSI+标签编码+文本型抽数字+缺失值RF模型拟合填充)+多种筛选指标(PCA/IV值/Gini/熵/丰富度)利用CatBoost实现贷款违约二分类预测案例

一、数据集简介

赛题背景

字段解释

二、预处理数据集

# 1、定义数据集

# 1.1、根据统计量查看数据特点(包括缺失值)并直接删除不必要字段(类似ID的唯一型字段)

# 1.2、分离特征与标签

# 1.3、合并train和test以便执行相同的特征工程

# 1.4、直接删除不必要入模字段

# 1.5、划分数据类型【数字型】、【类别型】

# 2、特征工程:数据分析与处理

# 2.1、统计训练集的各字段丰富度,及目标变量类别比

# 2.2、分析训练集和测试集的特征分布差异——是否为同分布

# T1、PSI方法量化比较

# T2、折线分布图可视化对比:仅针对【数字型】

# 2.3、分析特征间相关性分析可视化

# 2.4、【类别型】特征处理:全部数据集

# 2.4.1、枚举值型字段执行标签编码:grade、subGrade字段

# 2.4.2、文本型日期字段拆解提取年份、月份:issueDate、earliesCreditLine字段

# 2.4.3、文本型仅抽取数字+缺失值RF模型拟合填充:employmentLength字段

# 2.5、【数字型】缺失值填充:鉴于平均值易受极值影响,数值变量用中位数填充

# 2.6、导出处理后的数据

三、基于预处理/特征工程后的数据利用各种筛选指标(PCA、IV值、Gini基尼指数、熵、丰富度等)特征筛选进而实现分类预测

B1、载入处理好的数据集

# B2、数据预处理

# B2.1、切分数据集

# B2.2、特征分析

# B2.2.1、PCA主成分分析各个特征的重要性

# B2.2.2、基于IV值等指标分析各个特征的重要性:IV值、Gini基尼指数、熵、丰富度

# B2.3、划分特征变量与目标变量

# B3、模型训练与预测

# B3.1、划分训练/测试集

# # T1、一次性划分训练/测试集

# T2、执行K折交叉验证划分训练/测试集:适合大量数据的场景,但比较耗时

# B3.2、建立CatBoost模型并训练

# B3.2.1、指定分类特征并确保均为string类型

# B3.2.2、建立CatBoost模型

# B3.2.3、模型交叉训练

# B3.3、模型评估

# B3.4、导出模型对test数据集输出概率值


相关文章
ML之FE:金融风控—基于预处理(PSI+标签编码+文本型抽数字+缺失值RF模型拟合填充)+多种筛选指标(PCA/IV值/Gini/熵/丰富度)利用CatBoost实现贷款违约二分类预测案例之详细攻略
ML之FE:金融风

资源下载链接为: https://pan.quark.cn/s/1bfadf00ae14 在计算机系统中,.dll(动态链接库)文件是操作系统和其他程序共享功能的重要集合。X3DAudio1_7.dll是微软DirectX的一部分,主要用于游戏和多媒体应用程序的高级3D音频处理。当系统提示“缺少X3DAudio1_7.dll”时,说明该关键组件缺失,导致依赖它的程序或游戏无法正常运行。 X3DAudio1_7.dll的核心功能是计算3D空间中的声音定位和传播效果,帮助游戏实现立体声环绕声效。它能让玩家清晰感受到声音的方向和距离,增强游戏的沉浸感。例如,游戏中角色的脚步声、枪声或敌人的位置都可以通过该库进行精准定位。 “x86”和“x64”版本的X3DAudio1_7.dll分别对应32位和64位操作系统。x86版本适用于32位处理器,而x64版本适用于64位处理器。在安装时,必须选择与系统匹配的版本,否则可能导致安装失败或运行异常。 遇到该问题时,首确认系统是32位还是64位。然后,从安全可靠的来源下载对应的X3DAudio1_7.dll文件,并将其复制到系统目录的相应位置(通常是C:\Windows\System32,64位系统中32位DLL应放在C:\Windows\SysWOW64)。完成后重启计算机,使更改生效。 在下载和替换DLL文件时,务必从官方或信誉良好的网站获取,避免下载到错误或含有恶意软件的文件,导致系统不稳定或遭受攻击。安装前建议备份原有文件,以便在出现问题时能够恢复。 如果替换DLL文件后仍未解决问题,可能是其他相关组件缺失或系统存在更深层次的问题。此时可以尝试更新或重新安装DirectX,或者运行系统修复工具(如System File Checker,SFC)来检查和修复系统文件。 X3DAudio1_7.dll是DirectX的重要组成部分,对提
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一个处女座的程序猿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值