偏差-方差权衡及其对分类器性能的影响
立即解锁
发布时间: 2025-09-10 01:23:20 阅读量: 16 订阅数: 27 AIGC 


文本机器学习:从理论到应用
# 偏差 - 方差权衡及其对分类器性能的影响
## 1. 偏差的识别
偏差通常更难识别。虽然训练和测试准确率差距小(但误差大)的算法可能存在高偏差,但无法确定误差是否由训练数据中的内在噪声引起。
一种检查误差是否由内在噪声导致的方法是,在数据集上使用其他类型的模型,查看非常不同的模型是否对相同的测试实例进行了错误分类。有噪声的实例会给所有模型带来问题,并且往往会以更一致的方式被误分类。另一方面,由于不同模型的偏差不同,这会体现在每个模型在其特定的测试实例集上持续出错,这些测试实例集与其他模型的有所不同。不过,这种方法只能提供关于偏差和噪声性质的大致提示,不能将其视为正式的方法。要始终牢记的一个重要问题是,分析人员只能看到特定数据集上的综合误差形式,通常不可能使用有限的数据资源将其精确分解为不同的组成部分。
## 2. 偏差 - 方差权衡对性能的影响
### 2.1 训练数据大小的影响
- **方差方面**:增加训练数据大小几乎总是会降低分类器的方差,因为使用大量数据更具鲁棒性。当使用小训练数据集时,分类器通常会过拟合特定数据分布的特征。偏差 - 方差权衡中方差 \(V\) 的期望值 \(E[V]\) 如下:
\[E[V] = \frac{1}{t} \sum_{i=1}^{t} E[\{g(Z_i, D) - E[g(Z_i, D)]\}^2]\]
如果在小数据集 \(D\) 上有条件地计算期望,对于大多数合理的模型,\(g(Z_i, D)\) 的值会随 \(D\) 的选择有更显著的变化。例如,在大小为 25 的数据集上使用 1 - 最近邻分类器时,就会出现这种剧烈变化。而当训练数据大小增加到超过 25 时,预测区域会更稳定,这表明使用更大的训练数据集会带来更稳定的预测。
- **偏差方面**:增加数据大小也会降低许多分类器的偏差,不过这种效果通常不太明显,并且如果算法的参数固定在适合小数据集的值上,有时效果会相反。以 1 - 最近邻分类器为例,数据大小的增加会导致偏差和方差都降低。当数据量无限大时,唯一剩下的影响就是内在噪声。具体来说,1 - 最近邻分类器的准确率是贝叶斯最优率的两倍,这是因为训练数据和测试实例中的噪声对误差的贡献相等。
决策树也是一个受数据大小影响偏差的有趣例子。当数据量无限大时,决策树可以模拟任意决策边界;但当使用少量数据时,会创建分段线性边界。如图所示,由于决策树受树顶层分割的影响很大,而这些分割在不同训练数据集选择下变化不大,所以其预测对不同训练数据集的选择可能非常稳定,这种粗略的近似在仅对小训练数据集估计偏差时往往会导致更大的偏差。决策树的偏差取决于其高度,较小的树偏差更大,小数据集会阻碍深层树的创建。而随机森林在较小的训练数据集上有更好的偏差性能,它通过强制引入模型中心的多样性并对预测进行平均来减少以数据为中心的偏差,其决策边界更平滑,能更准确地近似真实决策边界,从而降低偏差。随机森林既可以被视为偏差减少方法,也可以被视为方差减少方法,这取决于用于分析的偏差 - 方差分解的具体选择。
### 2.2 数据维度的影响
增加数据维度几乎总是会由于存在无关属性而导致误差增加,在文本领域,由于文本数据的高维度性,这个问题尤为重要。不过,增加的误差可能反映在偏差或方差上,这取决于分类器的选择。
|分类器类型|偏差影响|方差影响|应对策略|
| ---- | ---- | ---- | ---- |
|线性回归等参数空间随维度增加的分类器|维度增加对偏差有有益影响,在高维文本数据中不同类通常(几乎)线性可分,线性模型偏差较低|若不使用正则化,维度增加会导致方差增加|使用正则化,可视为间接的特征选择,能降低方差,提高复杂模型的准确率|
|不同维度贡献在预测前预聚合的分类器(如最近邻分类器)|维度增加会导致偏差增加,因为无关维度的综合影响|维度增加会使分类器的预测更稳定|在高维情况下可采用特征装袋方法,即构建基于随机维度子集的分类器并对各子集的预测进行平均|
### 2.3 文本中模型选择的影响
#### 2.3.1 线性与非线性模型
线性模型通常由于强先验假设而具有高偏差,但在文本领域,文本的稀疏、高维性质使不同类(几乎)线性可分,因此线性模型在文本领域通常偏差较低。非线性模型如高斯核可以通过使用大带宽来模拟(或略微提高)线性性能,但额外的准确率优势往往不值得增加的计算量。使用非线性模型时,调整核参数变得极其重要,由于计算成本,在搜索参数选择空间时很容易不够全面,实际中非线性模型的性能可能比线性模型差。非线性方法的使用应主要限于在文本中使用语言或序列信息结合字符串核的情况,使用非线性核处理文本的向量空间(即多维)表示意义不大。
#### 2.3.2 特征选择的重要性
文本是一个高维领域,有许多无关属性,这些属性会根据所使用的模型增加分类器在偏差或方差方面的误差。参数数量随数据维度增加的模型,维度增加会导致方差增加,此时特征选择是减少方差的有效方法,线性模型中参数的正则化就是一种特征选择形式。
#### 2.3.3 单词的存在与缺失
在文本分类中,使用单词存在信息的分类器通常比使用单词缺失信息的分类器表现更好。例如,多项式模型在文本分类中通常比伯努利模型表现更好。一个类别通常可以用数千个单词来表达,一个小文档中可能由于偶然原因缺少该类别的大多数主题词。如果分类器将这些单词的缺失作为特定文档属于该类别的决定性证据,它对未见测试文档的泛化能力可能较差,会导致过拟合,这是高方差的一种表现。一般来说,在分类模型中考虑分类特征的不平衡频率很重要,因为特
0
0
复制全文
相关推荐









