监督学习
指从标注数据中学习预测模型的机器学习问题,本质是学习输入到输出的映射统计规律。
输入空间、特征空间、输出空间、实例
输入空间(input space):输入的所有可能取值的集合
实例(instance):每一个具体输入,通常由特征向量(feature vector)表示
特征空间(feature space):所有特征向量存在的空间
输出空间(output space):输出的所有可能取值的集合
输入变量:X 输入变量取值:x
输出变量:Y 输出变量取值:y
基本假设
X和Y具有联合概率分布P(X,Y)
目的
学习一个输入到输出的映射,这一映射以模型表示
形式
条件概率分布P(X|Y)或决策函数Y=f(X)
假设空间(hypothesis space)
所有这些可能模型的集合
流程图:
监督学习分为学习和预测两个过程,由学习系统和预测系统构成。
模型是利用给定的训练数据集通过学习得到的
无监督学习
指从无标注数据中学习预测模型的机器学习问题,本质是学习数据中的统计规律或潜在结构
统计学习三要素
模型
策略
输出变量为有限个离散变量,解决的是分类问题
输入和输出变量为连续变量时,解决的是回归问题
0-1损失函数(0-1 loss function)----分类问题
平方损失函数(quadratic loss function)----回归问题
绝对损失函数(absolute loss function)----回归问题
对数损失函数(logarithmic loss function)----概率模型
经验风险最小化和结构风险最小化
根据大数定理,当样本容量N趋于无穷时,经验风险Remp(f)趋于期望风险Rexp(f)
模型f(x)关于训练集的平均损失成为经验风险
样本容量N过小时,会产生过拟合现象
结构风险:是为防止过拟合提出的一种策略
结构风险最小化等价于正则化。
结构风险就是在经验风险的基础上加了表示模型复杂度的的正则化项(regularization)或者罚项(penalty term)
J(f)为模型复杂度。模型越复杂J(f)越大,反之越小
算法
指学习模型的具体计算方法
模型的评估与选择
训练误差
测试误差
训练误差主要是模型对于已知数据的训练能力,测试误差反映了学习方法对未知的测试数据集的预测能力。
过拟合
正则化与交叉验证
正则化:实现结构风险最小化的策略
正则化作用:选择经验风险与模型复杂度同时较小的模型
交叉验证
基本想法:重复使用数据,把给定数据进行切分,在此基础上反复训练
数据足够充足,将数据集随机切分为三部分
生成模型和判别模型
判别式模型直接学习决策函数f(X)或条件概率分布P(Y|X)作为预测的模型.往往准确率更高,并且可以简化学习问题.如k近邻法/感知机/决策树/最大熵模型/Logistic回归/线性判别分析(LDA)/支持向量机(SVM)/Boosting/条件随机场算法(CRF)/线性回归/神经网络
生成式模型由数据学习联合概率分布P(X,Y),然后由P(Y|X)=P(X,Y)/P(X)求出条件概率分布作为预测的模型,即生成模型.当存在隐变量时只能用生成方法学习.如混合高斯模型和其他混合模型/隐马尔可夫模型(HMM)/朴素贝叶斯/依赖贝叶斯(AODE)/LDA文档主题生成模型
感知机
模型介绍
感知机是二类分类的线性模型,属于判别模型.感知机学习旨在求出将训练数据进行线性划分的分离超平面.是神经网络和支持向量机的基础.
模型:,
w叫作权值向量,b叫做偏置,sign是符号函数.
感知机的几何解释:wx+b对应于特征空间中的一个分离超平面S,其中w是S的法向量,b是S的截距.S将特征空间划分为两个部分,位于两个部分的点分别被分为正负两类.
梯度下降法
学习算法之原始形式
即用误分类点对超平面进行不断的迭代与更新。
感知机学习算法由于采用不同的初值或者选取不同的误分类点,解可以不同。
学习算法之对偶形式
基本想法:将ω和b表示为实例xi和标记yi的线性组合的形式,通过求解其系数从而求的ω和b。
对偶形式中训练实例仅以内积的形式出现。
为了方便,预先计算出训练集中实例间的内积并以矩阵形式存储。
成为Gram矩阵