经验误差与过拟合
基本概念
1、”错误率”: 分类错误的样本数占样本总数的比例。如果在 m 个样本中有 a个样本分类错误,则错误率 E= a/m;
2、”精度”: 1 - a/m,即精度 = 1 - 错误率
3、“误差”: 学习器的实际预测输出与样本的真实输出之间的差异。
4、”训练误差”(training error)或”经验误差” :学习器在训练集上的误差。
5、”泛化误差” : 在新样本上的误差。
6、当学习器把训练样本学得”太好”了的时候,很可能巳经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,这样就会导致泛化性能下降这种现象在机器学习中称为”过拟合” (overfitting). 与”过拟合”相对的是“欠拟合” (underfitting) ,这是指对训练样本的一般性质尚未学好.