一、定义
1.1 WOE(Weight of Evidence)定义与原理
WOE 是“Weight of Evidence”的缩写,直译为“证据权重”,用来衡量某个特征分箱中“坏人”与“好人”之间的分布差异性。
WOE 的基本定义如下:
WOEi=ln(badi/total badgoodi/total good)WOE_i = \ln \left( \frac{\text{bad}_i / \text{total bad}}{\text{good}_i / \text{total good}} \right)WOEi=ln(goodi/total goodbadi/total bad)
其含义可以进一步展开为:
WOEi=ln(badigoodi)−ln(total badtotal good)WOE_i = \ln \left( \frac{\text{bad}_i}{\text{good}_i} \right) - \ln \left( \frac{\text{total bad}}{\text{total good}} \right)WOEi=ln(goodibadi)−ln(total goodtotal bad)
即:每个分箱中的坏好比(Odds)相对于总体的坏好比之间的差异性。
换句话说,WOE 描述了每个分箱的观测结果相较于总体分布的“证据强度”差异。当 WOE 为正时,表示该分箱中坏人比重较大;为负时表示好人比重较大;接近 0 时说明该分箱与总体无明显差异。
1.2 IV(Information Value)定义与变换
IV 是“Information Value”的缩写,是在风控建模中用来度量特征对目标变量(如好/坏用户)预测能力的指标。
IV 的定义如下:
IV=∑i=1n(bad_ratei−good_ratei)×WOEiIV = \sum_{i=1}^{n} (\text{bad\_rate}_i - \text{good\_rate}_i) \times WOE_iIV=i=1∑n(bad_ratei−good_ratei)×WOEi
其中:
- bad_ratei=baditotal bad\text{bad\_rate}_i = \frac{\text{bad}_i}{\text{total bad}}bad_ratei=total badbadi
- good_ratei=gooditotal good\text{good\_rate}_i = \frac{\text{good}_i}{\text{total good}}good_ratei=total goodgoodi
IV 本质上是 WOE 的加权和,其形式与信息论中的“相对熵”(KL散度)一致,表示总体坏好人分布在每个分箱上的差异程度。
IV 可以改写为:
IV=∑i=1n(baditotal bad)ln(badi/total badgoodi/total good)IV = \sum_{i=1}^{n} \left( \frac{\text{bad}_i}{\text{total bad}} \right) \ln \left( \frac{\text{bad}_i / \text{total bad}}{\text{good}_i / \text{total good}} \right)IV=i=1∑n(total badbadi)ln(goodi/total goodbadi/total bad)
这就将其与 WOE 的公式连接起来,进一步揭示了 IV 的信息含义:衡量每个分箱的坏人分布相对于好人分布的信息增益。分箱之间差异越大,IV 越高,说明该变量具有更强的区分能力。
二、计算步骤
-
分箱(Binning)
- 连续变量:等频、等距或基于业务自定义。
- 离散变量:合并稀疏类别。
-
统计分箱好坏数
- bin_good_i、bin_bad_i,及总体 good_total、bad_total。
-
计算边际占比
- dist_goodi=bin_goodi/good_totaldist\_good_i = bin\_good_i / good\_totaldist_goodi=bin_goodi/good_total
- dist_badi=bin_badi/bad_totaldist\_bad_i = bin\_bad_i / bad\_totaldist_badi=bin_badi/bad_total
-
计算 WOE
- WOEi=ln(dist_badi)−ln(dist_goodi)WOE_i = \ln(dist\_bad_i) - \ln(dist\_good_i)WOEi=ln(dist_badi)−ln(dist_goodi)
-
检查单调性与合并
- 若 WOE 曲线不单调,需调整分箱或合并相邻箱。
-
计算 IV