期末复习之机器学习
选择题 10 * 2
填空题 10 * 1
判断题 10 * 2
简答题 4 * 5
计算题 2 * 15
文章目录
第一章 绪论
-
机器学习的定义
机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。
经验在计算机系统中通常以数据的形式存在。
机器学习研究的主要内容是关于在计算机上从数据中产生模型的算法,即学习算法 -
根据训练数据是否拥有标记信息,将学习任务分为监督学习和无监督学习。
-
监督学习
:分类和回归
线性回归、对数几率回归、决策树、支持向量机、贝叶斯分类器、神经网络
无监督学习:
聚类
聚类算法: 原型聚类:(k均值,学习向量量化,高斯混合聚类);密度聚类(DBSVAN);层次聚类(AGNES)。降维。话题分析。图分析。
- 机器学习的目标是使学得的模型能很好地适用于“新样本”。
- 学得模型适用于新样本的能力,称为“
泛化能力
” - 机器学习三要素:模型、策略、算法
第二章 模型评估与选择
-
训练误差: 训练集上的误差
-
泛化误差:新样本上的误差
-
训练误差越小越好?
不是,训练误差越来越小会导致模型过拟合,则模型不具备很好的泛化能力。
-
泛化误差越小越好?
是的,预测的越准确越好,即泛化误差越小越好。
-
过拟合
: 学习到的模型太符合训练集的特征
欠拟合
: 学习到的模型没有把应该考虑进去的属性考虑进去。
减小过拟合的方法:
减少特征的数量,数据正则化
-
如果一个模型加入正则项,这个模型的拟合程度不一定增加。取决于正则化参数。
参数过大会导致欠拟合
,过小会导致过拟合。 -
评估模型的方法:
交叉验证法
:将数据集D划分为k个大小相似的互斥子集,每次用k-1个子集的并集作为训练集,余下的子集作为测试集,一共进行k次,最终返回这k个测试结果的均值。
留出法
:划分两个互斥子集,一个训练集,一个测试集。
自助法
:有放回采样。 -
参数与性能度量
回归任务最常用的性能度量是
均方误差
错误率:分类错误的样本数占总样本数的比例
精 度 = 1 - 错误率 -
查准率、查全率
P-R曲线中,
(1)若一个学习器的曲线被另一个学习器的曲线完全包住,则后者大于前者。
(2) 面积越大,性能越好
(3)平衡点(查全率=查准率)越高越好
ROC曲线中
横坐标
为假正例率
,纵坐标为真正例率
-
偏差与方差(都小才好)
偏差
:度量了学习算法的期望预测与真实结果的偏离程度,刻画了算法本身的拟合程度。
方差
:度量了同样大小的训练集的变动所导致的学习性能的变化,刻画了数据扰动带来的影响。
习题
1、 以二分类任务为例,假定数据集D包含1000个样本,将其划分为训练集S和测试集T,其中S包含800个样本, T包含200个样本,用S进行训练后,如果模型在T上有50个样本分类错误,那么模型的正确率为75%。
2、PR(Precision-Recall)曲线的横轴和纵轴分别是查全率和查准率。
3、ROC曲线的横轴和纵轴分别是假正例率和真正例率。
6、有多种因素可能导致过拟合,其中最常见的情况是由于_学习能力过于强大,以至于把训练样本所包含的不太一般的特性都学到了,而欠拟合则通常是由于学习能力低下而造成的。
7、查准率和查全率是分类任务中常用的性能度量指标,请写出其公式并对这两种指标进行分析。