机器学习西瓜书期末复习(2022HENU)

最新推荐文章于 2025-05-16 23:19:51 发布

原创

最新推荐文章于 2025-05-16 23:19:51 发布 · 1.9w 阅读

143

807 ·

CC 4.0 BY-SA版权

文章标签：

#聚类 #机器学习 #算法

本文详细介绍了机器学习的基础知识，包括监督学习与无监督学习的区分，模型评估中的过拟合与欠拟合概念，以及减小过拟合的方法。深入探讨了线性模型、决策树、神经网络和支持向量机等重要模型，同时也涵盖了贝叶斯分类器、集成学习和聚类算法。通过实例解析了各类模型的训练过程和评估标准，为理解和应用机器学习提供了全面的指导。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

期末复习之机器学习

选择题 10 * 2
填空题 10 * 1
判断题 10 * 2
简答题 4 * 5
计算题 2 * 15

文章目录

期末复习之机器学习
第一章绪论
第二章模型评估与选择
- 习题
第三章线性模型
- 习题
第四章决策树
- 习题
第五章神经网络
- 习题
第六章支持向量机
- 习题
第七章贝叶斯分类器
- 习题
第八章集成学习
- 习题
第九章聚类（无监督学习）
- 习题

第一章绪论

机器学习的定义

机器学习致力于研究如何通过计算的手段，利用经验来改善系统自身的性能。
经验在计算机系统中通常以数据的形式存在。
机器学习研究的主要内容是关于在计算机上从数据中产生模型的算法，即学习算法
根据训练数据是否拥有标记信息，将学习任务分为监督学习和无监督学习。
监督学习 ：分类和回归

线性回归、对数几率回归、决策树、支持向量机、贝叶斯分类器、神经网络

无监督学习：聚类

聚类算法：原型聚类：（k均值，学习向量量化，高斯混合聚类）；密度聚类（DBSVAN）;层次聚类（AGNES）。降维。话题分析。图分析。

机器学习的目标是使学得的模型能很好地适用于“新样本”。
学得模型适用于新样本的能力，称为“泛化能力”
机器学习三要素：模型、策略、算法

第二章模型评估与选择

训练误差：训练集上的误差
泛化误差：新样本上的误差
训练误差越小越好？

不是，训练误差越来越小会导致模型过拟合，则模型不具备很好的泛化能力。
泛化误差越小越好？

是的，预测的越准确越好，即泛化误差越小越好。
过拟合：学习到的模型太符合训练集的特征
欠拟合：学习到的模型没有把应该考虑进去的属性考虑进去。

减小过拟合的方法：
减少特征的数量，数据正则化

如果一个模型加入正则项，这个模型的拟合程度不一定增加。取决于正则化参数。参数过大会导致欠拟合，过小会导致过拟合。
评估模型的方法：
交叉验证法：将数据集D划分为k个大小相似的互斥子集，每次用k-1个子集的并集作为训练集，余下的子集作为测试集，一共进行k次，最终返回这k个测试结果的均值。
留出法：划分两个互斥子集，一个训练集，一个测试集。
自助法：有放回采样。
参数与性能度量回归任务最常用的性能度量是均方误差
错误率：分类错误的样本数占总样本数的比例
精度 = 1 - 错误率
查准率、查全率