机器学习西瓜书期末复习(2022HENU)

本文详细介绍了机器学习的基础知识,包括监督学习与无监督学习的区分,模型评估中的过拟合与欠拟合概念,以及减小过拟合的方法。深入探讨了线性模型、决策树、神经网络和支持向量机等重要模型,同时也涵盖了贝叶斯分类器、集成学习和聚类算法。通过实例解析了各类模型的训练过程和评估标准,为理解和应用机器学习提供了全面的指导。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

期末复习之机器学习

选择题 10 * 2
填空题 10 * 1
判断题 10 * 2
简答题 4 * 5
计算题 2 * 15


第一章 绪论

  • 机器学习的定义

    机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。
    经验在计算机系统中通常以数据的形式存在。
    机器学习研究的主要内容是关于在计算机上从数据中产生模型的算法,即学习算法

  • 根据训练数据是否拥有标记信息,将学习任务分为监督学习无监督学习

  • 监督学习 :分类和回归

线性回归、对数几率回归、决策树、支持向量机、贝叶斯分类器、神经网络

  • 无监督学习:聚类

聚类算法: 原型聚类:(k均值,学习向量量化,高斯混合聚类);密度聚类(DBSVAN);层次聚类(AGNES)。降维。话题分析。图分析。

  • 机器学习的目标是使学得的模型能很好地适用于“新样本”。
  • 学得模型适用于新样本的能力,称为“泛化能力
  • 机器学习三要素:模型、策略、算法

第二章 模型评估与选择

  1. 训练误差: 训练集上的误差

  2. 泛化误差:新样本上的误差

  3. 训练误差越小越好?

    不是,训练误差越来越小会导致模型过拟合,则模型不具备很好的泛化能力。

  4. 泛化误差越小越好?

    是的,预测的越准确越好,即泛化误差越小越好。

  5. 过拟合: 学习到的模型太符合训练集的特征
    欠拟合: 学习到的模型没有把应该考虑进去的属性考虑进去。

减小过拟合的方法:
减少特征的数量,数据正则化

  1. 如果一个模型加入正则项,这个模型的拟合程度不一定增加。取决于正则化参数。参数过大会导致欠拟合,过小会导致过拟合。

  2. 评估模型的方法:
    交叉验证法:将数据集D划分为k个大小相似的互斥子集,每次用k-1个子集的并集作为训练集,余下的子集作为测试集,一共进行k次,最终返回这k个测试结果的均值。
    留出法:划分两个互斥子集,一个训练集,一个测试集。
    自助法:有放回采样。

  3. 参数与性能度量在这里插入图片描述 回归任务最常用的性能度量是均方误差
    错误率:分类错误的样本数占总样本数的比例
    精 度 = 1 - 错误率

  4. 查准率、查全率
    在这里插入图片描述在这里插入图片描述在这里插入图片描述

P-R曲线中,
(1)若一个学习器的曲线被另一个学习器的曲线完全包住,则后者大于前者。
(2) 面积越大,性能越好
(3)平衡点(查全率=查准率)越高越好

在这里插入图片描述

ROC曲线中横坐标假正例率,纵坐标为真正例率

  1. 偏差与方差(都小才好)

    偏差:度量了学习算法的期望预测与真实结果的偏离程度,刻画了算法本身的拟合程度。
    方差:度量了同样大小的训练集的变动所导致的学习性能的变化,刻画了数据扰动带来的影响。

习题

1、 以二分类任务为例,假定数据集D包含1000个样本,将其划分为训练集S和测试集T,其中S包含800个样本, T包含200个样本,用S进行训练后,如果模型在T上有50个样本分类错误,那么模型的正确率为75%

2、PR(Precision-Recall)曲线的横轴和纵轴分别是查全率查准率
3、ROC曲线的横轴和纵轴分别是假正例率真正例率

6、有多种因素可能导致过拟合,其中最常见的情况是由于_学习能力过于强大,以至于把训练样本所包含的不太一般的特性都学到了,而欠拟合则通常是由于学习能力低下而造成的。

7、查准率和查全率是分类任务中常用的性能度量指标,请写出其公式并对这两种指标进行分析。
在这里插入图片描述在这里插入图片描述

第三章 线性模型

### 关于《机器学习西瓜期末复习资料 #### 复习重点概述 为了有效准备《机器学习》课程的期末考试,建议重点关注以下几个方面: - **训练集的作用** 训练集主要用于估计模型并学习样本数据集。通过调整某些参数来构建类器,进而形成用于预测的新实例类方式[^2]。 - **早停策略的应用** 在防止过拟合的过程中,“早停”是一种常用技术。具体做法是将整个数据集划为训练集和验证集两部;其中前者负责计算梯度以及更新权重与偏置项,而后者则用来评估泛化性能。当观察到尽管训练损失持续下降但验证错误率却开始上升时,应当立即终止迭代过程,并保存此时的最佳模型参数配置[^3]。 #### 题型布指导 根据以往的经验来看,该科目的试题结构大致如下表所示: | 类型 | 数量 | 单题值 | | -------- | ---------- | -------| | 选择题 | 10 | 2 | | 填空题 | 10 | 1 | | 判断题 | 10 | 2 | | 简答题 | 4 | 5 | | 计算题 | 2 | 15 | 对于不同类型的题目应采不同的备考方法: - 对于概念性的选择、填空及判断类问题,需熟记中定义及其应用场景; - 解答简述性质的问题时,则要能够清晰阐述算法原理或流程; - 至于涉及实际运算的操作题,则务必掌握各类公式的推导过程与实现细节。 ```python # 示例:Python代码片段展示如何加载sklearn库中的鸢尾花数据集作为练习对象 from sklearn.datasets import load_iris data = load_iris() X, y = data.data, data.target print(f"特征矩阵形状: {X.shape}") print(f"标签向量长度: {len(y)}") ```
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值