机器学习笔记01
(本CSDN博客学习笔记对应为机器学习西瓜书教材,一切内容以西瓜书教材为准)
新学期的学习依旧,这次发表在csdn博客上的是西瓜书版机器学习教材的学习心得和笔记的主要内容,可能不是很详尽,但保证是本人理解与提炼的结果。
Part I 绪论
1.1引言
机器学习:通过计算的手段,利用经验改善系统的性能
一般流程:数据-学习算法-模型-预测结果
1.2基本术语
①数据 数据集:待研究的全部对象(如全部100个待研究的西瓜)
数据样本:1个待研究的对象(如100个西瓜中的1个西瓜)
特征向量:可以使用数值衡量的基本特征(如西瓜的含糖量)
属性:某些固有特质(如西瓜的种类)
②学习算法:机器学习的主要部分——学习&训练
③模型 有监督学习:分类 二分类-是否类问题
多分类-多目标选择问题
回归 Y=R 大范围时间或其他影响因素下某特定指标的变化规律和发展预测
无监督学习:聚类 机器自行对目标进行分组
分成的每个组被称为“簇”(cluster)
④预测 测试、测试样本
泛化能力——模型用于预测未经训练的全新数据及的能力
1.3 假设空间
进行科学推理的手段
归纳:由特殊到一半——狭义:从训练集中得到概念
广义:从样本中进行学习
演绎:由一般到特殊
1.4 归纳偏好
选择同一个数据及训练出不同模型时的选择方式
基本原则-奥卡姆剃刀原理:选择所有解中最简单的一个解(也可能有其他多种理解方式)
1.5 发展历程
机器学习的个人理解:一种有着自我学习和改善能力的程序,通过收集数据集的方式进行学习,在程序自主进行学习的过程中应该尽量减少人为干预。