特征重要度(Feature Importance)
定义
特征重要度是一种衡量机器学习模型中每个特征对预测目标贡献程度的指标。它帮助我们了解模型如何使用输入特征进行预测,并提供特征选择和模型解释的依据。
常用的特征重要度衡量方法
-
基于树模型的特征重要度:
- 决策树、随机森林和梯度提升树等模型可以根据分裂点的贡献计算特征重要度。
- 衡量方式:
- 基尼重要度(Gini Importance):统计特征在分裂时降低的不纯度总和。
- 信息增益:统计特征在分裂时提高的信息量。
-
基于模型系数的特征重要度:
- 线性模型(如线性回归和逻辑回归)通过特征系数的绝对值衡量重要度。
- 特征标准化后,系数值越大,特征的重要性越高。
-
基于模型预测变化的特征重要度:
- Permutation Importance(置换重要度):通过打乱某个特征的值,观察模型性能的变化来衡量其重要性。
- 性能下降越多