第1章 绪论
1.2 基本术语
一组数据的集合称为一个 “数据集”(data set)
数据集中的每一条数据称为一个 “示例”(instance)或 “样本”(sample),它可以是一个事件或对象
(有时整个数据集亦称为一个“样本”,因为字母歌看作对样本空间的一个采样,通过上下文可判断出它是指单个示例还是数据集)
反映事件或对象在某方面的表现或性质,称为 “属性” (attribute) 或 “特征” (feature)
属性上的取值,称为“属性值”(attribute value)
各属性强成的空间称为“属性空间”(attribute space) 、“样本空间”(sample space) 或 “输入空间”
空间中每一个点对应一个坐标向量,因此把一个示例称为一个“特征向量”(feature vector)
从数据中觉得模型的过程称为“学习”(learning) 或 “训练”(trainning),这个过程通过执行某个学习算法来完成。
关于【分类】、【回归】、【聚类】
1) 若我们欲预测的是离散值,例如“好瓜”、“坏瓜”,此类学习任务称为“分类”(classification)
对只涉及两个类别的,叫“二分类”(binary classification), 分别叫“正类”(positive class),“负类”(negative class)
对多个类别时,叫多分类(multi-class classification)
2) 若欲预测的是连续值,例如西瓜成熟度0.95、0.37,此类学习任务称为“回归”(regression)
3) 将训练集中的西瓜根据相似性分为若干组,每组称为一个“簇”(cluster),此类学习任务称为“聚类”(clustering)
机器学得模型适用于新样本的能力,称为“泛化”(generalization)能力
关于【归纳】、【演绎】
1) 归纳(induction) 是从特殊到一般的"泛化"(generalization) 过程
2) 演绎(deduciton) 是从一般到特殊的“特化”(specialization) 过程
第2章 模型评估与选择
第3章 线性模型
3.1 基本形式
给定由 个属性描述的示例
,其中
是
在第
个属性上的取值.
(3.1)
一般用向量形式写成
("T"符号来表示向量的转置)
其中 .
和
学得之后 ,模型就得以确定。
3.2 线性回归
线性关系:两个变量之间存在一次方函数关系,就称它们之间存在线性关系。
线性回归:是一种预测数值型数据的统计方法,它假设自变量()和因变量(
)之间存在线性关系。
在公式(3.1)中, 即
是因变量,
是自变量,
是模型的参数(系数),
是误差项
对离散属性,若属性值间存在“序”(order)关系,可通过连续化将其转化为连续值,例如:
- 二值属性“身高”的取值“高”“矮”可转化为{1.0,0.0}
- 三值属性“高度”的取值“高”“中”“低”可转化为{1.0,0.5,0.0};
若属性值间不存在序关系,则通常将其转化为向量的形式,例如:
- 属性“瓜类”的取值 “西瓜” “南瓜” “黄瓜” 可转化为 {(0,0,1),(0,1,0),(1,0,0)}
线性回归试图学得:
, 使得
最终要确定其中的 和
。
“arg min”表示使 表达式达到最小值时自变量
和
的取值
指均方误差(Mean Squared Error, MSE):MSE是预测误差(即预测值与真实值之差)的平方的平均值。
![]()
求解 和
使
最小化的过程,称为线性回归模型的最小二乘“参数估计”(parameter estimation),通过对
和
求偏导,然后令这两个偏导数等于零,来得到
和
的解。
其中: 为 x 的均值。
3.2.1 一元线性回归
参考《概率论与数理统计教程》第三版,茆诗松,高等教育出版社,第八章 方差分析与回归分析
回归分析处理的是变量与变量间的关系。常见的关系有两类:
一类是确定性关系:如面积S与边长a 之间的关系
另一类是相关关系:如人的身高x 与体重y 的关系。
变量间的相关关系不同用完全确定的函数形式表示,但在平均意义下有一定的定量关系表达式,寻找这种定量关系表达式就是回归分析的主要任务。
第一类回归问题:
设 与
间有相关关系,称
为自变量,
为因变量,在知道
的取值后,
的取值并不是确定的,它是一相随机变量,因此有一个分布,这个分布是在知道
的取值后
的条件密度函数
,我们关心的是
的均值
,它是
的函数,这个函数是确定性的:
这便是 关于
的回归函数——条件期望。
上述的 与
均为随机变量场合进行的。
第二类回归问题:
还有一种情况,自变量