统计学的学习步骤
统计学习概念
1.概念:基于数据构建概率统计模型,并运用模型对数据进行预测与分析的一门学科。
2.统计对象:一般指数据,从数据出发,提取数据特征,抽象数据模型,发现数据中的规律,数学原理,进行预测统计。
3.统计方法:关于监督学习、非监督学习、半监督学习、强化学习。
统计学习的三要素
1.模型:
1.1模型简单理解就是我们数学的公式,方程,在机器学习中,模型就是所要学习的条件概率分布或决策函数
2.策略:
2.1策略即是我们说的具体方法,在统计学当中,就是根据数据特征,以及经验风险最小化和结构风险最小化来选择的方法。
2.2损失函数(代价函数):度量预测值与真实值之间差异的程度,记作
L
(
Y
,
f
(
x
)
)
L(Y,f(x))
L(Y,f(x))。损失函数值越小,模型就越好。
统计学习中常用的损失函数:0-1损失函数、平方损失函数、绝对损失函数、对数损失函数。
(1)0-1损失函数:
L
(
Y
,
f
(
X
)
)
=
(
Y
−
f
(
X
)
)
2
L(Y,f(X))=(Y-f(X))^2
L(Y,f(X))=(Y−f(X))2
(2)绝对损失函数:
L
(
Y
,
f
(
X
)
)
=
∣
Y
−
f
(
X
)
∣
L(Y,f(X))=|Y-f(X)|
L(Y,f(X))=∣Y−f(X)∣
(3)对数损失函数:
L
(
Y
,
P
(
Y
∣
X
)
)
=
−
log
X
(
Y
∣
X
)
L(Y,P(Y|X))=-\log X(Y|X)
L(Y,P(Y∣X))=−logX(Y∣X)
3.算法:算法是统计学习中最为重要的内容,是模型的具体化。
(1)模型的选择
(2)正则化与交叉验证
(3)分类问题
(4)回归问题
习题1.1-伯努利模型
(1)题目:伯努利模型是定义在取值为0与1的随机变量上的概率分布。假设观测到伯努利模型nn次独立的数据生成结果,其中k次的结果为1,这时可以用极大似然估计或贝叶斯估计来估计结果为1的概率。
(2)步骤
1.根据题意:伯努利模型是定义在取值为0与1的随机变量上的概率分布。
对于随机变量
X
X
X,则有:
P
(
X
=
1
)
=
p
P(X=1)=p
P(X=1)=p
P
(
X
=
0
)
=
1
−
p
P(X=0)=1−p
P(X=0)=1−p
其中,
p
p
p为随机变量XX取值为1的概率,
1
−
p
1
−
p
1-p1−p
1−p1−p则为取0的概率。
由于随机变量
X
X
X只有0和1两个值,
X
X
X的概率分布函数,即伯努利模型可写为:
P
p
(
X
=
x
)
=
p
x
(
1
−
p
)
(
1
−
x
)
,
0
⩽
p
⩽
1
P p(X=x)=p x (1−p) (1−x) ,0⩽p⩽1
Pp(X=x)=px(1−p)(1−x),0⩽p⩽1
则伯努利模型的假设空间为:
F
=
P
∣
P
p
(
X
)
=
p
x
(
1
−
p
)
(
1
−
x
)
,
p
∈
[
0
,
1
]
F={P∣P p (X)=p x (1−p) (1−x) ,p∈[0,1]}
F=P∣Pp(X)=px(1−p)(1−x),p∈[0,1]
2.伯努利模型的极大似然估计以及贝叶斯估计中的统计学习方法三要素
(1)模型:伯努利模型
(2)策略:经验风险最小化。极大似然估计,等价于当模型是条件概率分布、损失函数是对数损失函数时的经验风险最小化。
算法:极大化似然:
a
r
g
m
a
x
L
(
p
∣
X
)
=
p
a
r
g
m
a
x
P
(
X
∣
p
)
argmax L(p∣X)= pargmax P(X∣p)
argmaxL(p∣X)=pargmaxP(X∣p)
(2)贝叶斯估计
模型:伯努利模型
策略:结构风险最小化。贝叶斯估计中的最大后验概率估计,等价于当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时的结构风险最小化。
算法:最大化后验概率:
p
a
r
g
m
a
x
π
(
p
∣
X
)
=
p
a
r
g
m
a
x
P
(
X
∣
p
)
π
(
p
)
∫
d
p
P
(
X
∣
p
)
π
(
p
)
pargmaxπ(p∣X)= pargmax\frac{P(X∣p)π(p)}{∫dpP(X∣p)π(p)}
pargmaxπ(p∣X)=pargmax∫dpP(X∣p)π(p)P(X∣p)π(p)
3. 伯努利模型的极大似然估计
(1).极大似然估计的一般步骤:
(2).出随机变量的概率分布函数;
(3).写出似然函数;
(4)对似然函数取对数,得到对数似然函数,并进行化简;
(5).对参数进行求导,并令导数等于0;
(6).求解似然函数方程,得到参数的值。
(7).对于伯努利模型nn次独立的数据生成结果,其中kk次的结果为1,可得似然函数为:
L
(
p
∣
X
)
=
P
(
X
∣
p
)
=
i
=
1
∏
n
P
(
x
(
i
)
∣
p
)
=
p
k
(
1
−
p
)
n
−
k
L(p∣X)=P(X∣p)= i=1∏n P(x (i) ∣p)=p^k(1-p)^{n-k}
L(p∣X)=P(X∣p)=i=1∏nP(x(i)∣p)=pk(1−p)n−k
对似然函数取对数,得到对数似然函数为:
l
o
g
L
(
p
∣
X
)
=
l
o
g
p
k
(
1
−
p
)
n
−
k
=
=
l
o
g
(
p
k
)
+
l
o
g
(
(
1
−
p
)
n
−
k
)
=
k
l
o
g
p
(
n
−
k
)
l
o
g
(
1
−
p
)
logL(p∣X)=logp k(1−p) n−k==log(p k )+log((1−p)n−k)=klogp(n−k)log(1−p)
logL(p∣X)=logpk(1−p)n−k==log(pk)+log((1−p)n−k)=klogp(n−k)log(1−p)
求解参数p:
p
=
p
a
r
g
m
a
x
L
(
p
∣
X
)
=
p
a
r
g
m
a
x
[
k
l
o
g
p
+
(
n
−
k
)
l
o
g
(
1
−
p
)
]
p^= pargmax L(p∣X)= pargmax[klogp+(n−k)log(1−p)]
p=pargmaxL(p∣X)=pargmax[klogp+(n−k)log(1−p)]
对参数p求导,并求解导数为0时的p值:
∂
l
o
g
L
(
p
)
∂
p
=
k
p
−
n
−
k
1
−
p
=
k
(
1
−
p
)
−
p
(
n
−
k
)
p
(
1
−
p
)
=
k
−
n
p
p
(
1
−
p
)
\frac{∂logL(p)}{∂p} = \frac{k}{p}− \frac{n−k}{1−p}=\frac{k(1−p)−p(n−k)}{p(1−p)}= \frac{k−np}{p(1−p)}
∂p∂logL(p)=pk−1−pn−k=p(1−p)k(1−p)−p(n−k)=p(1−p)k−np
令
∂
l
o
g
L
(
p
)
∂
p
\frac{∂logL(p)}{∂p }
∂p∂logL(p)=0从上式可得 $k − n p = 0,即 p = \frac{k}{ n}
$
习题1.2
1.题目:通过经验风险最小化推导极大似然估计。证明模型是条件概率分布,当损失函数是对数损失函数时,经验风险最小化等价于极大似然估计
2.思路
1.根据经验风险最小化定义,写出目标函数;
2.根据对数损失函数,对目标函数进行整理;
3.根据似然函数定义和极大似然估计的一般步骤(计算时需要取对数),可得到结论。
4.解答步㮛:
假设楻型的条件概率分布是
P
θ
(
Y
∣
X
)
P_θ (Y∣X)
Pθ(Y∣X)样本集
D
=
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
.
.
.
(
x
N
,
y
N
)
D={(x_1 ,y_1 ),(x_2,y_2 )...(x_N,y_N)}
D=(x1,y1),(x2,y2)...(xN,yN)根据书中第 17 页公式 ( 1.12 ) (1.12) (1.12) ,对数损失函数为:
L
(
Y
,
P
(
Y
∣
X
)
)
=
−
log
P
(
Y
∣
X
)
L ( Y, P(Y∣X ) ) = -\log P(Y \mid X)
L(Y,P(Y∣X))=−logP(Y∣X)
根据书中第 18 页公式(1.15),按昭经验风险最小化求最优模型就是求解最优化问题:
m
i
n
(
f
∈
F
)
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
min(f∈F)\frac{1}{N}\sum\limits_{i=1}^NL(y_i ,f(x_i ))
min(f∈F)N1i=1∑NL(yi,f(xi))
结合上述两个式子,可得经验风险最小化函数:
m
i
n
(
f
∈
F
)
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
=
m
i
n
(
f
∈
F
)
1
N
∑
D
[
−
l
o
g
P
(
Y
∣
X
)
]
=
min(f∈F)\frac{1}{N}\sum\limits_{i=1}^NL(y_i ,f(x_i ))=min(f∈F)\frac{1}{N}\sum\limits_{D}[−logP(Y∣X)]=
min(f∈F)N1i=1∑NL(yi,f(xi))=min(f∈F)N1D∑[−logP(Y∣X)]=
根据㕽然函数定义:
L
(
θ
)
=
∏
D
P
θ
(
Y
∣
X
)
,以及极大似然估计的一般步骤,可得
:
L(θ)=∏_DP_θ (Y∣X) ,以及极大似然估计的一般步骤,可得:
L(θ)=D∏Pθ(Y∣X),以及极大似然估计的一般步骤,可得:
a
r
g
m
i
n
f
∈
F
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
=
1
N
a
r
g
m
a
x
l
o
g
L
(
θ
)
argminf∈F\frac{1}{N}\sum\limits_{i=1}^NL(y_i ,f(x_i )=\frac{1}{N}argmaxlogL(θ)
argminf∈FN1i=1∑NL(yi,f(xi)=N1argmaxlogL(θ)
即经验风险最小化等价于极大似然估计