《机器学习》周志华西瓜书笔记

第1章  绪论

1.2  基本术语

一组数据的集合称为一个 “数据集”(data set)

数据集中的每一条数据称为一个 “示例”(instance)“样本”(sample),它可以是一个事件或对象

(有时整个数据集亦称为一个“样本”,因为字母歌看作对样本空间的一个采样,通过上下文可判断出它是指单个示例还是数据集)

反映事件或对象在某方面的表现或性质,称为 “属性” (attribute) “特征” (feature)

属性上的取值,称为“属性值”(attribute value)

各属性强成的空间称为“属性空间”(attribute space)“样本空间”(sample space)  或 “输入空间”

空间中每一个点对应一个坐标向量,因此把一个示例称为一个“特征向量”(feature vector)

从数据中觉得模型的过程称为“学习”(learning) 或 “训练”(trainning),这个过程通过执行某个学习算法来完成。

关于【分类】、【回归】、【聚类】

1) 若我们欲预测的是离散值,例如“好瓜”、“坏瓜”,此类学习任务称为“分类”(classification)

        对只涉及两个类别的,叫“二分类”(binary classification), 分别叫“正类”(positive class),“负类”(negative class)

        对多个类别时,叫多分类(multi-class classification)

2) 若欲预测的是连续值,例如西瓜成熟度0.95、0.37,此类学习任务称为“回归”(regression)

3) 将训练集中的西瓜根据相似性分为若干组,每组称为一个“簇”(cluster),此类学习任务称为“聚类”(clustering)

机器学得模型适用于新样本的能力,称为“泛化”(generalization)能力

关于【归纳】、【演绎】

1) 归纳(induction) 是从特殊到一般的"泛化"(generalization) 过程

2) 演绎(deduciton) 是从一般到特殊的“特化”(specialization) 过程

第2章  模型评估与选择

第3章  线性模型

3.1  基本形式

给定由 d 个属性描述的示例  \textit{\textbf{x}}=(x_{1};x_{2};\cdots ;x_{d})  ,其中 x_{i}  是 \textit{\textbf{x}} 在第 i 个属性上的取值.

f(\textit{\textbf{x}})=w_{1}x_{1}+w_{2}x_{2}+\cdots +w_{d}x_{d}+b         (3.1)

一般用向量形式写成

f(\textit{\textbf{x}})=\textit{\textbf{w}}^{\mathrm{T}}\textit{\textbf{x}}+b       ("T"符号来表示向量的转置) 

其中 \textit{\textbf{w}}=(w_{1};w_{2};\cdots ;w_{d}) . \textit{\textbf{w}} 和 b 学得之后 ,模型就得以确定。

3.2  线性回归

线性关系:两个变量之间存在一次方函数关系,就称它们之间存在线性关系。

线性回归:是一种预测数值型数据的统计方法,它假设自变量(x)和因变量(y)之间存在线性关系。

在公式(3.1)中,\textit{\textbf{y}} 即 f(x)是因变量,  x_{1},x_{2},\cdots ,x_{d} 是自变量,w_{1},w_{2},\cdots ,w_{d} 是模型的参数(系数),b 是误差项

  • 只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析
  • 如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析

对离散属性,若属性值间存在“序”(order)关系,可通过连续化将其转化为连续值,例如:

  • 二值属性“身高”的取值“高”“矮”可转化为{1.0,0.0}
  • 三值属性“高度”的取值“高”“中”“低”可转化为{1.0,0.5,0.0};

若属性值间不存在序关系,则通常将其转化为向量的形式,例如:

  • 属性“瓜类”的取值 “西瓜” “南瓜” “黄瓜” 可转化为 {(0,0,1),(0,1,0),(1,0,0)}

线性回归试图学得:

f(x_{i})=wx_{i}+b, 使得  f(x_{i})\simeq y_{i}

最终要确定其中的 \textit{\textbf{w}} 和 b 。

(w^{*},b^{*})=\arg \min \sum_{i=1}^{m}(f(x_{i})-y_{i})^{2} =\arg \min \sum_{i=1}^{m}(y_{i}-wx_{i}-b)^{2}

“arg min”表示使 \sum 表达式达到最小值时自变量\textit{\textbf{w}} 和 b 的取值

E(w,b) 均方误差(Mean Squared Error, MSE):MSE是预测误差(即预测值与真实值之差)的平方的平均值。

求解  \textit{\textbf{w}} 和 b 使 E(w,b) =\sum_{i=1}^{m}(y_{i}-wx_{i}-b)^{2} 最小化的过程,称为线性回归模型的最小二乘“参数估计”(parameter estimation),通过对 \textit{\textbf{w}} 和 b  求偏导,然后令这两个偏导数等于零,来得到\textit{\textbf{w}}\textit{\textbf{w}} 和 b 的解。

其中:\bar{x}=\frac{1}{m}\sum_{i=1}^{m}x_{i} 为 x 的均值。

3.2.1  一元线性回归

参考《概率论与数理统计教程》第三版,茆诗松,高等教育出版社,第八章 方差分析与回归分析

回归分析处理的是变量与变量间的关系。常见的关系有两类:

        一类是确定性关系:如面积S与边长a 之间的关系  S=a^{2}

        另一类是相关关系:如人的身高x 与体重y 的关系。

变量间的相关关系不同用完全确定的函数形式表示,但在平均意义下有一定的定量关系表达式,寻找这种定量关系表达式就是回归分析的主要任务。

第一类回归问题:

设 y 与 x 间有相关关系,称 x 为自变量, y 为因变量,在知道 x 的取值后,y 的取值并不是确定的,它是一相随机变量,因此有一个分布,这个分布是在知道 x 的取值后 Y的条件密度函数p(y|x),我们关心的是y 的均值E(Y|x),它是x 的函数,这个函数是确定性的:

f(x)=E(Y|x)=\int_{-\infty }^{\infty }yp(y|x)dy

这便是 y 关于x 的回归函数——条件期望。

上述的 y 与 x 均为随机变量场合进行的。

第二类回归问题:

还有一种情况,自变量  

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值