统计机器学习基本概念笔记

一.统计学习的目的

统计学习的目的是:对数据的预测和分析。

二. 学习方法

  1. 监督学习(supervised learning):知道数据集属于哪一类;
  2. 非监督学习(unsupervised learning):不知道数据集属于哪一类;
  3. 半监督学习(semi-supervised learning):知道部分数据集属于哪一类;
  4. 强化学习(reinforcement learning):给模型一些输入,但是模型可能给不了我们希望的真实的输出y。根据模型的输出反馈,如果反馈结果良好,更接近真实输出,就给其正向激励;如果反馈结果不好,偏离真实输出,就给其反向激励。不断通过“反馈-修正”这种形式,一步一步让模型学习的更好,这就是增强学习的核心所在。就像训练狗狗一样。
  5. 统计学习的三个要素:模型、策略、算法。
  6. 统计学习方法的步骤:得到一个训练集合->确定假设空间->模型的选择标准->实现求解最优模型的算法->根据最优模型测试集合。

三. 监督学习

  1. 假设空间(hypothesis space):模型(输入到输出的映射=函数)集合。
  2. 输入空间是指输入可能取值的集合;特征空间是指所有具体的输入实例。
  3. x(i)表示输入变量x的第i个特征,x_i表示多个输入变量中的第i个变量。在这里插入图片描述
  4. 根据输入输出变量的不同类型可以分为:
    (1). 输入输出变量均为连续变量的预测问题:回归问题;
    (2). 输入输出变量均为有限个离散变量的预测问题:分类问题;
    (3). 输入输出变量均为变量序列的预测问题:标注问题。
  5. 监督学习的模型可以是概率模型(P(Y|X))或者非概率模型(y=f(x))。
  6. 学习方法分为:生成方法和判别方法
    (1). 生成方法由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测得模型,即生成模型。
    (2). 判别方法是直接学习决策函数f(x)或者条件概率分布P(Y|X)作为预测模型,即判别模型。
    (3). 生成方法的特点:可以还原联合概率分布,存在隐变量时仍然可以使用,但是判别方法不行;生成方法学习收敛速度快。
    (4). 判别方法的特点:直接学习到预测模型,准确率更高;而且可以对数据各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题。
  7. 监督学习的应用主要在三个方面:分类问题、标注问题、回归问题。
    (1). 当输出变量Y取有限个离散值得时候,预测问题便成为分类问题。分类模型称为分类器,评估分类器性能的指标一般是分类器的准确率。即正确样本数/样本总体数
    TF表示对不对,PN表示正负结果,例如TP表示预测正类并且对了。-- 精确率:二分类问题中

四. 无监督学习

  1. 无监督学习的模型:函数z=g(x)(硬聚类),条件概率分布P(z|x)(软聚类)或条件概率分布P(x|z)(概率模型估计)。
  2. 模型可以实现对数据的聚类、降维、概率估计。

五. 策略

  1. 损失函数度量模型一次预测的好坏。
    在这里插入图片描述
    在这里插入图片描述
    损失函数值越小,模型越好。
  2. 风险函数度量平均意义下模型预测的好坏 ,关于联合分布的平均意义下的损失。在这里插入图片描述
    损失函数的期望就是风险函数,但是我们不会知道联合分布(知道了还要什么机器学习),那么我们只能换一个角度找平均。
  3. 经验风险是模型关于训练集的平均损失(简单粗暴求平均)。
    在这里插入图片描述
    由大数定律,当样本容量无穷,经验风险趋于期望风险。

大数定律参考:https://baike.baidu.com/item/%E5%A4%A7%E6%95%B0%E5%AE%9A%E5%BE%8B

  1. 实际应用中样本数目有限,那么我们需要一定的矫正:经验风险最小化和结构风险最小化。
    (1). 经验风险最小化的策略认为,经验风险最小的模型是最优的模型。
    在这里插入图片描述
    (2). 但是当容量很小时,经验风险最小化会产生“过拟合”。此时我们就需要为经验风险加上一个表示模型复杂程度的正则化项,得到结构风险,然后再最小化。
    在这里插入图片描述

六.模型选择方法:正则化和交叉验证

正则化是结构风险最小化策略的实现:结构风险最小的模型是最优模型。
为什么正则化能够防止过拟合呢?

  1. 过拟合是指学习时选择的模型所包含的参数过多,以至于出现这一模型对已知数据预测得很好,但对未知数据的预测很差的现象。
  2. 过拟合不好是因为参数过多
    ->减小参数需要让参数趋近0(=0没有办法解,自己的理解是你不能规定哪些参数不重要,然后让他为0)
    ->参数加在一起(一定的方法相加)会小于一个常数C(C≠0,参数趋近0不是等于0)
    ->一定的方法相加,常用的就是L1范数和L2范数
    ->问题转化为:在附加条件下L1范数或者L2范数≤C时,经验函数的最小值(条件极值)。
    ->解出w以及λ,满足拉格朗日函数。w和λ带回后,发现函数与经验风险正则化后的函数一样。

正则化能够防止过拟合数学理论证明参考:
https://www.bilibili.com/video/BV17441117dm?p=2
从几何方面看,L1范数可以得到稀疏解,L2范数不会得到稀疏解

交叉验证
基本思想:重复地使用数据;把给定是数据进行切分,将切分地数据集组合为数据集和测试集,反复训练。

  1. 简单交叉验证:已知数据分为两个部分,一部分训练数据在各种条件下训练模型。另一部分测试数据在各种模型上测试得到测试误差,选出测试误差最小的模型。
    在这里插入图片描述
  2. S折交叉验证在这里插入图片描述
  3. 留一交叉验证
    在这里插入图片描述

P问题、NP问题、NPC问题、NP-hard问题

  1. P问题:总能在多项式时间内找到解的问题。(比如常用的排序算法的解都能在一定的时间复杂度中得到)。
  2. NP问题:可以在多项式时间验证一个解的问题,但我们不能或者不确定能不能在多项式时间内总能解出来。(我们强调的是验证
  3. NPC问题:同时满足下面两个条件的问题就是NPC问题。
    (1. 它得是一个NP问题;
    (2. 所有的NP问题都可以约化到它。(证明其中一个已知的NPC问题能约化到它)
    约化:某个简单问题可以用复杂问题的解决方法解决。比如:一元一次方程的解法可以用一元二次方程的解法来解决。
  4. NP-Hard问题:它满足NPC问题定义的第二条但不一定要满足第一条(就是说,NP-Hard问题要比 NPC问题的范围广)。

参考:https://blog.csdn.net/huang1024rui/article/details/49154507

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值