【评分卡】评分卡入门与创建原则——分箱、WOE、IV、分值分配

本文详细介绍了评分卡的创建过程,包括变量分析、WOE和IV的计算、分箱策略以及评分卡的计算方法。通过分箱将连续变量离散化,利用WOE和IV评估预测能力,调整分箱以最大化IV值。接着,建立了基于Logistic Regression的模型,并探讨了评分卡的分值分配。强调在实际应用中,根据变量的WOE值计算每个用户的最终评分。最后,提醒特征选择时并非维度越多越好,应保留高权重、低相关性的变量。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这里写图片描述

本文主要讲“变量选择”“模型开发”“评分卡创建和刻度”

变量分析

首先,需要确定变量之间是否存在共线性,若存在高度相关性,只需保存最稳定、预测能力最高的那个。需要通过 VIF(variance inflation factor)也就是 方差膨胀因子进行检验。
变量分为连续变量和分类变量。在评分卡建模中,变量分箱(binning)是对连续变量离散化(discretization)的一种称呼。要将logistic模型转换为标准评分卡的形式,这一环节是必须完成的。信用评分卡开发中一般有常用的等距分段、等深分段、最优分段。

单因子分析,用来检测各变量的预测强度,方法为WOE、IV;

WOE

WOE(weight of Evidence)字面意思证据权重,对分箱后的每组进行。假设good为好客户(未违约),bad为坏客户(违约)。
woe公式
#good(i)表示每组中标签为good的数量,#good(T)为good的总数量;bad相同。

这里说一下,有的地方计算WOE时使用的是 b a d 占 比 g o o d 占 比 \frac{bad占比}{good占比} goodbad的,其实是没有影响的,因为我们计算WOE的目的其实是通过WOE去计算IV,从而达到预测的目的。后面IV计算中,会通过相减后相乘的方式把负号给抵消掉。所以不管谁做分子,谁做分母,最终的IV预测结果是不变的。

IV

IV(information value)衡量的是某一个变量的信息量,公式如下:
iv公式
N为分组的组数;
IV可用来表示一个变量的预测能力。

IV 预测能力
<0.03 无预测能力
0.03~0.09
0.1~0.29
0.3~0.49
>=0.5 极高

根据IV值来调整分箱结构并重新计算WOE和IV,直到IV达到最大值,此时的分箱效果最好。

分组一般原则

  1. 组间差异大
  2. 组内差异小
  3. 每组占比不低于5%
  4. 必须有好、坏两种分类

举例说明

例如按年龄分组,一般进行分箱,我们都喜欢按照少年、青年、中年、老年几大类进行分组,但效果真的不一定好:

Age good bad WOE
<18 50 40 l n ( 50 / 330 40 / 220 ) = − 0.182321556793955 ln(\frac{50/330}{40/220}) = -0.182321556793955 ln(40/22050/330)=0.182321556793955
18~30 100 60 l n ( 100 / 330 60 / 220 ) = 0.105360515657826 ln(\frac{100/330}{60/220}) = 0.105360515657826 ln(60/220100/330)=0.105360515657826
30~60 100 80 l n ( 100 / 330 80 / 220 ) = − 0.182321556793955 ln(\frac{100/330}{80/220}) = -0.182321556793955 ln(80/220100/330)=0.182321556793955
>60 80 40 l n ( 80 / 330 40 / 220 ) = 0.287682072451781 ln(\frac{80/330}{40/220}) = 0.287682072451781 ln(40/22080/330)=0.287682072451781
ALL 330 220

计算
根据IV值可以看出,预测能力低,建议重新调整分箱。

建立模型

先进行数据划分,一般70%训练集、30%测试集。训练集用于训练模型,测试集用于检测训练后的模型。
一般采用Logistic Regression建立模型,训练模型。将建好的模型对待测样本进行预测。
模型创建标准

评分卡

评分卡计算方法

odds为good用户概率(p)与bad用户概率(1-p)的比值。
o d d s = 好 客 户 概 率 坏 客 户 概 率 = p 1 − p odds=\frac{好客户概率}{坏客户概率}=\frac{p}{1-p} odds==1pp
评分卡设定的分值刻度可以通过将分值表示为比率对数的线性表达式来定义。公式如下:
s c o r e 总 = A + B ∗ l n ( o d d s ) score_总=A+B*ln(odds) score=A+Bln(odds)
注:若odds是 好 客 户 概 率 坏 客 户 概 率 \frac{好客户概率}{坏客户概率}

<think>好的,用户想了解C++中多态的概念和用法,以及示例代码。我需要先回顾多态的基本概念,然后结合用户提供的引用内容来组织回答。 首先,多态在C++中主要通过虚函数实现,分为编译时多态(如函数重载)和运行时多态(虚函数)。用户提供的示例中有虚函数的使用,比如引用[1]中的`virtual void Func1()`,引用[3]中的虚析构函数,以及引用[4]中的月薪计算示例。需要重点解释运行时多态,因为这是C++中多态的核心部分。 接下来,用户的问题需要使用方法说明和示例代码。根据引用[2],当不使用虚函数时,派生类的函数不会覆盖基类,导致静态绑定,结果总是调用基类方法。而使用虚函数后,如引用[3]的析构函数,能正确调用派生类的析构函数,避免内存泄漏。引用[4]的示例展示了多态在实际中的应用,不同职位员工计算月薪的方式不同,通过基类指针调用虚函数实现动态绑定。 我需要分步骤解释多态的使用方法:定义虚函数、通过基类指针或引用调用、确保正确析构。然后提供示例代码,比如引用[4]的月薪计算,并可能补充一个更基础的例子。同时要注意用户提供的代码中的问题,如引用[2]未使用虚函数导致的问题,引用[3]虚析构函数的重要性。 还要确保回答中引用正确的文献,如引用[2]说明未使用虚函数的结果,引用[3]说明虚析构的必要性,引用[4]展示多态应用。此外,用户可能对虚函数表、内存布局感兴趣,如引用[1]中类的大小涉及虚函数表指针,但用户可能不需要深入这部分,除非问题涉及。 最后,生成的相关问题需要多态相关,如多态的实现原理、虚函数表、虚析构函数的作用、动态绑定的应用场景等,参考用户提供的引用内容中的例子来设计问题。</think>### C++多态概念使用方法 #### 一、多态的定义分类 多态是面向对象编程三大特性之一,分为两种形式: 1. **编译时多态**:通过函数重载/运算符重载实现,例如$f(int)$和$f(double)$ 2. **运行时多态**:通过虚函数机制实现,例如基类指针调用不同派生类的方法[^2][^4] #### 二、虚函数使用方法 1. **定义虚函数**:在基类中使用`virtual`关键字 ```cpp class Employee { public: virtual double calculateSalary() = 0; // 纯虚函数 }; ``` 2. **派生类重写**:override关键字(C++11起) ```cpp class Manager : public Employee { public: double calculateSalary() override { return 8000; // 经理固定月薪 } }; ``` 3. **通过基类指针/引用调用** ```cpp Employee* emp = new Technician(); cout << emp->calculateSalary(); // 动态绑定到Technician的方法 ``` #### 三、完整示例代码(基于引用[4]) ```cpp #include <iostream> using namespace std; class Employee { public: virtual double calculateSalary() = 0; virtual ~Employee() {} // 虚析构函数[^3] }; class Manager : public Employee { public: double calculateSalary() override { return 8000; } }; class Technician : public Employee { int hours; public: Technician(int h) : hours(h) {} double calculateSalary() override { return hours * 100; } }; int main() { Employee* emp1 = new Manager(); Employee* emp2 = new Technician(160); cout << "Manager salary: " << emp1->calculateSalary() << endl; // 输出8000 cout << "Technician salary: " << emp2->calculateSalary() << endl; // 输出16000 delete emp1; delete emp2; } ``` #### 四、关键注意事项 1. **虚析构函数必要性**:当存在继承关系时,基类必须声明虚析构函数,否则可能造成派生类资源泄漏[^3] 2. **override关键字**:C++11引入,明确表示重写虚函数,避免函数签名错误 3. **内存布局**:包含虚函数的类会自动生成虚函数表指针(vptr),如引用[1]中的类B会增加指针大小
评论 16
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值