一 偏置-方差分解(Bias-Variance Decomposition)
偏置-方差分解(Bias-Variance Decomposition)是统计学派看待模型复杂度的观点。Bias-variance 分解是机器学习中一种重要的分析技术。给定学习目标和训练集规模,它可以把一种学习算法的期望误差分解为三个非负项的和,即噪音noise、bias和 variance。
噪声是一种不可控的错误,很难避免,被称为不可约偏差(irreducible error) ,即噪声无法通过模型来消除。噪声通常是出现在“数据采集”的过程中的,且具有随机性和不可控性,比如采集用户数据的时候仪器产生的随机性偏差、人工标注时的错误或者在实验中受到其他不可控因素的干扰等。表达了当前任务上任何模型所能达到的期望泛化误差的下界,刻画了学习问题本身的难度。
符号 | 涵义 |
---|---|
xxx | 测试样本 |
DDD | 数据集 |
yDy_{D}yD | xxx 在数据集中的标记 |
yyy | xxx 的真实标记 |
fff | 训练集 DDD 学得的模型 |
f(x;D)f\left ( x;D\right)f(x;D) | 由训练集 DDD 学得的模型 fff 对 xxx 的预测输出 |
fˉ(x)\bar{f}(x)< |