参考:CRPS:贝叶斯机器学习模型的评分函数_continuous ranked probability score连续概率评分计算步骤-CSDN博客
连续分级概率评分(CRPS)和负对数似然损失(Negative Log-Likelihood, NLL)都是用于评估概率预测模型的指标,但它们在数学定义、应用场景和侧重点上存在显著差异。
-
CRPS:
衡量预测分布的累积分布函数(CDF)与真实观测值的CDF(阶跃函数)之间的差异。公式为:
其中,F(x)是预测分布的CDF,y是真实观测值。
-
NLL:
基于预测分布的概率密度函数(PDF)计算数据点的负对数似然:
其中,f(y)是预测分布在真实值y处的概率密度。
核心区别
特性 | CRPS | NLL |
---|---|---|
比较对象 | 预测CDF与真实CDF的差异 | 预测PDF在真实值处的概率密度 |
积分范围 | 全局积分(整个实数轴) | 仅依赖真实值处的局部密度 |
对分布的敏感度 | 关注分布整体形状(如均值、方差) | 仅关注真实值附近的局部拟合 |
异常值敏感度 | 较稳健(积分平滑化差异) | 较敏感(直接依赖单点密度) |
适用场景 | 连续变量预测(如温度、降水量) | 参数估计、模型训练(如贝叶斯模型) |
指标 | 最小值 | 最大值 | 敏感度 | 极端情况 |
---|---|---|---|---|
CRPS | 0(完美预测) | 无理论上限 | 对整体分布形状敏感 | 预测分布越宽,CRPS 越大 |
NLL | 0(理论极限) | +∞(概率密度→0) | 对真实值附近的概率密度敏感 | 预测方差太小或均值偏离时,NLL 可能爆炸 |
CRPS(连续分级概率评分)的取值范围是 [0, +∞)
CRPS与MAE(平均绝对误差)
点预测的极限:当预测分布退化为点估计(Dirac delta函数)时,CRPS退化为绝对误差(MAE),而NLL趋向无穷大(无法处理确定性预测)。
总结
CRPS和NLL虽然都用于概率模型评估,但本质不同:
CRPS:衡量预测的「整个概率分布」和「真实值」的差距。通过积分全局比较CDF,更适合评估连续分布的整体性能;
NLL:衡量预测分布中「真实值出现的概率」有多高。通过局部密度计算似然,更适合参数优化和密度估计任务。