【风控】特征评估指标WOE和IV值

一、定义

1.1 WOE(Weight of Evidence)定义与原理

WOE 是“Weight of Evidence”的缩写,直译为“证据权重”,用来衡量某个特征分箱中“坏人”与“好人”之间的分布差异性。
WOE 的基本定义如下:
WOEi=ln⁡(badi/total badgoodi/total good)WOE_i = \ln \left( \frac{\text{bad}_i / \text{total bad}}{\text{good}_i / \text{total good}} \right)WOEi=ln(goodi/total goodbadi/total bad)
其含义可以进一步展开为:

WOEi=ln⁡(badigoodi)−ln⁡(total badtotal good)WOE_i = \ln \left( \frac{\text{bad}_i}{\text{good}_i} \right) - \ln \left( \frac{\text{total bad}}{\text{total good}} \right)WOEi=ln(goodibadi)ln(total goodtotal bad)

即:每个分箱中的坏好比(Odds)相对于总体的坏好比之间的差异性
换句话说,WOE 描述了每个分箱的观测结果相较于总体分布的“证据强度”差异。当 WOE 为正时,表示该分箱中坏人比重较大;为负时表示好人比重较大;接近 0 时说明该分箱与总体无明显差异。

1.2 IV(Information Value)定义与变换

IV 是“Information Value”的缩写,是在风控建模中用来度量特征对目标变量(如好/坏用户)预测能力的指标。
IV 的定义如下:
IV=∑i=1n(bad_ratei−good_ratei)×WOEiIV = \sum_{i=1}^{n} (\text{bad\_rate}_i - \text{good\_rate}_i) \times WOE_iIV=i=1n(bad_rateigood_ratei)×WOEi
其中:

  • bad_ratei=baditotal bad\text{bad\_rate}_i = \frac{\text{bad}_i}{\text{total bad}}bad_ratei=total badbadi
  • good_ratei=gooditotal good\text{good\_rate}_i = \frac{\text{good}_i}{\text{total good}}good_ratei=total goodgoodi
    IV 本质上是 WOE 的加权和,其形式与信息论中的“相对熵”(KL散度)一致,表示总体坏好人分布在每个分箱上的差异程度。
    IV 可以改写为:
    IV=∑i=1n(baditotal bad)ln⁡(badi/total badgoodi/total good)IV = \sum_{i=1}^{n} \left( \frac{\text{bad}_i}{\text{total bad}} \right) \ln \left( \frac{\text{bad}_i / \text{total bad}}{\text{good}_i / \text{total good}} \right)IV=i=1n(total badbadi)ln(goodi/total goodbadi/total bad)

这就将其与 WOE 的公式连接起来,进一步揭示了 IV 的信息含义:衡量每个分箱的坏人分布相对于好人分布的信息增益。分箱之间差异越大,IV 越高,说明该变量具有更强的区分能力。

二、计算步骤

  1. 分箱(Binning)

    • 连续变量:等频、等距或基于业务自定义。
    • 离散变量:合并稀疏类别。
  2. 统计分箱好坏数

    • bin_good_i、bin_bad_i,及总体 good_total、bad_total。
  3. 计算边际占比

    • dist_goodi=bin_goodi/good_totaldist\_good_i = bin\_good_i / good\_totaldist_goodi=bin_goodi/good_total
    • dist_badi=bin_badi/bad_totaldist\_bad_i = bin\_bad_i / bad\_totaldist_badi=bin_badi/bad_total
  4. 计算 WOE

    • WOEi=ln⁡(dist_badi)−ln⁡(dist_goodi)WOE_i = \ln(dist\_bad_i) - \ln(dist\_good_i)WOEi=ln(dist_badi)ln(dist_goodi)
  5. 检查单调性与合并

    • 若 WOE 曲线不单调,需调整分箱或合并相邻箱。
  6. 计算 IV