统计学习基础概览-CSDN博客

文章目录

一.统计学习的目的

统计学习的目的是：对数据的预测和分析。

二. 学习方法

监督学习(supervised learning)：知道数据集属于哪一类；
非监督学习(unsupervised learning)：不知道数据集属于哪一类；
半监督学习(semi-supervised learning)：知道部分数据集属于哪一类；
强化学习(reinforcement learning)：给模型一些输入，但是模型可能给不了我们希望的真实的输出y。根据模型的输出反馈，如果反馈结果良好，更接近真实输出，就给其正向激励；如果反馈结果不好，偏离真实输出，就给其反向激励。不断通过“反馈-修正”这种形式，一步一步让模型学习的更好，这就是增强学习的核心所在。就像训练狗狗一样。
统计学习的三个要素：模型、策略、算法。
统计学习方法的步骤：得到一个训练集合->确定假设空间->模型的选择标准->实现求解最优模型的算法->根据最优模型测试集合。

三. 监督学习

假设空间(hypothesis space)：模型(输入到输出的映射=函数)集合。
输入空间是指输入可能取值的集合；特征空间是指所有具体的输入实例。
x(i)表示输入变量x的第i个特征，x_i表示多个输入变量中的第i个变量。
根据输入输出变量的不同类型可以分为：
(1). 输入输出变量均为连续变量的预测问题：回归问题；
(2). 输入输出变量均为有限个离散变量的预测问题：分类问题；
(3). 输入输出变量均为变量序列的预测问题：标注问题。
监督学习的模型可以是概率模型(P(Y|X))或者非概率模型(y=f(x))。
学习方法分为：生成方法和判别方法
(1). 生成方法由数据学习联合概率分布P(X,Y)，然后求出条件概率分布P(Y|X)作为预测得模型，即生成模型。
(2). 判别方法是直接学习决策函数f(x)或者条件概率分布P(Y|X)作为预测模型，即判别模型。
(3). 生成方法的特点：可以还原联合概率分布，存在隐变量时仍然可以使用，但是判别方法不行；生成方法学习收敛速度快。
(4). 判别方法的特点：直接学习到预测模型，准确率更高；而且可以对数据各种程度上的抽象、定义特征并使用特征，因此可以简化学习问题。
监督学习的应用主要在三个方面：分类问题、标注问题、回归问题。
(1). 当输出变量Y取有限个离散值得时候，预测问题便成为分类问题。分类模型称为分类器，评估分类器性能的指标一般是分类器的准确率。即正确样本数/样本总体数
TF表示对不对，PN表示正负结果，例如TP表示预测正类并且对了。

四. 无监督学习

无监督学习的模型：函数z=g(x)（硬聚类），条件概率分布P(z|x)（软聚类）或条件概率分布P(x|z)（概率模型估计）。
模型可以实现对数据的聚类、降维、概率估计。

五. 策略

损失函数度量模型一次预测的好坏。

损失函数值越小，模型越好。
风险函数度量平均意义下模型预测的好坏，关于联合分布的平均意义下的损失。
损失函数的期望就是风险函数，但是我们不会知道联合分布(知道了还要什么机器学习)，那么我们只能换一个角度找平均。
经验风险是模型关于训练集的平均损失(简单粗暴求平均)。

由大数定律，当样本容量无穷，经验风险趋于期望风险。

大数定律参考：https://baike.baidu.com/item/%E5%A4%A7%E6%95%B0%E5%AE%9A%E5%BE%8B

实际应用中样本数目有限，那么我们需要一定的矫正：经验风险最小化和结构风险最小化。
(1). 经验风险最小化的策略认为，经验风险最小的模型是最优的模型。

(2). 但是当容量很小时，经验风险最小化会产生“过拟合”。此时我们就需要为经验风险加上一个表示模型复杂程度的正则化项，得到结构风险，然后再最小化。

六.模型选择方法：正则化和交叉验证

正则化是结构风险最小化策略的实现：结构风险最小的模型是最优模型。
为什么正则化能够防止过拟合呢？

过拟合是指学习时选择的模型所包含的参数过多，以至于出现这一模型对已知数据预测得很好，但对未知数据的预测很差的现象。
过拟合不好是因为参数过多
->减小参数需要让参数趋近0(=0没有办法解，自己的理解是你不能规定哪些参数不重要，然后让他为0)
->参数加在一起(一定的方法相加)会小于一个常数C(C≠0，参数趋近0不是等于0)
->一定的方法相加，常用的就是L1范数和L2范数
->问题转化为：在附加条件下L1范数或者L2范数≤C时，经验函数的最小值(条件极值)。
->解出w以及λ，满足拉格朗日函数。w和λ带回后，发现函数与经验风险正则化后的函数一样。

正则化能够防止过拟合数学理论证明参考：
https://www.bilibili.com/video/BV17441117dm?p=2
从几何方面看，L1范数可以得到稀疏解，L2范数不会得到稀疏解

交叉验证
基本思想：重复地使用数据；把给定是数据进行切分，将切分地数据集组合为数据集和测试集，反复训练。

简单交叉验证：已知数据分为两个部分，一部分训练数据在各种条件下训练模型。另一部分测试数据在各种模型上测试得到测试误差，选出测试误差最小的模型。
S折交叉验证
留一交叉验证

P问题、NP问题、NPC问题、NP-hard问题

P问题：总能在多项式时间内找到解的问题。(比如常用的排序算法的解都能在一定的时间复杂度中得到)。
NP问题：可以在多项式时间验证一个解的问题，但我们不能或者不确定能不能在多项式时间内总能解出来。（我们强调的是验证）
NPC问题：同时满足下面两个条件的问题就是NPC问题。
（1. 它得是一个NP问题；
（2. 所有的NP问题都可以约化到它。（证明其中一个已知的NPC问题能约化到它）
约化：某个简单问题可以用复杂问题的解决方法解决。比如：一元一次方程的解法可以用一元二次方程的解法来解决。
NP-Hard问题：它满足NPC问题定义的第二条但不一定要满足第一条（就是说，NP-Hard问题要比 NPC问题的范围广）。