信息熵
自信息
一、
I
(
X
)
=
−
l
o
g
b
p
(
x
)
I(X)=-log_bp(x)
I(X)=−logbp(x)
当b=2时,其单位为比特,当b=e时,其单位为nat
信息熵(自由信息的期望):度量随机变量
X
X
X的不确定性,信息熵越大越不确定
H
(
X
)
=
E
[
I
(
X
)
]
=
−
∑
x
p
(
x
)
l
o
g
b
p
(
x
)
H(X)=E[I(X)]=-\sum\limits_{x}p(x)log_bp(x)
H(X)=E[I(X)]=−x∑p(x)logbp(x)
计算信息熵时约定:若
p
(
x
)
=
0
p(x)=0
p(x)=0,则
p
(
x
)
l
o
g
b
p
(
x
)
=
0
p(x)log_bp(x)=0
p(x)logbp(x)=0.当
X
X
X的某个取值的概率为1时熵最小,其值为0;当
X
X
X的各个取值的概率均等时信息熵最大。其值为
l
o
g
b
∣
X
∣
log_b|X|
logb∣X∣,其中
∣
X
∣
|X|
∣X∣表示
X
X
X可能取值的个数。
二、将样本类别标记为
y
y
y视作随机变量,各个类别在样本几何
D
D
D中的占比
P
k
(
k
=
1
,
2
,
3...
∣
y
∣
)
Pk(k=1,2,3...|y|)
Pk(k=1,2,3...∣y∣)视作各个类别取值的概率,则样本集合
D
(
随
机
变
量
y
)
D(随机变量y)
D(随机变量y)的信息熵(底数b取2)为
E
n
t
(
D
)
=
−
∑
x
=
1
y
p
k
l
o
g
2
p
k
Ent(D)=-\sum\limits_{x=1}^yp_klog_2p_k
Ent(D)=−x=1∑ypklog2pk
此时信息熵所代表的不确定性可以转换理解为集合内样本的纯度。
ID3决策树
算法原理
一、
1.从逻辑的角度分析,通过大量的条件判断语句的组合
2.从几何的的角度分析,根据某种准则划分特征空间
3.最终母的:将样本越分越纯
通过几何的角度来分析玫瑰(特征分类),
①对于色泽和红色的值越大的玫瑰,我们将它认为是好的玫瑰。
②色泽与红色值越小的玫瑰,我们将它认为不好的玫瑰。
条件熵
条件熵(
Y
Y
Y的信息熵关于概率分布
X
X
X的期望):在已知
X
和
Y
X和Y
X和Y的不确定性时,
H
(
Y
/
X
)
=
∑
x
p
(
x
)
H
(
Y
/
X
=
x
)
H(Y/X)=\sum\limits_{x}p(x)H(Y/X=x)
H(Y/X)=x∑p(x)H(Y/X=x)
从单个属性特征
a
a
a来看,假设其可能取值为
a
1
,
a
2
.
.
.
.
a
v
,
D
v
a^1,a^2....a^v,D^v
a1,a2....av,Dv表示属性
a
a
a取值为
a
v
∈
a
1
,
a
2
.
.
.
.
a
v
a^v∈{a^1,a^2....a^v}
av∈a1,a2....av的样本集合。
D
v
D
\frac{ D^v}{D}
DDv的表示占比,那么在已知属性
a
a
a的取值后,样本的集合
D
D
D的熵为
∑
x
V
D
v
D
E
n
t
(
D
v
)
\sum\limits_{x}^V\frac{ D^v}{D}Ent(D^v)
x∑VDDvEnt(Dv)
信息增益
在已知属性特征
a
a
a的取值后
y
y
y的不确定性减少的量,也即纯度的提升
G
a
i
n
(
D
,
a
)
=
E
n
t
(
D
)
−
∑
x
V
D
v
D
E
n
t
(
D
v
)
Gain(D,a)=Ent(D)-\sum\limits_{x}^V\frac{ D^v}{D}Ent(D^v)
Gain(D,a)=Ent(D)−x∑VDDvEnt(Dv)
以信息增益为准则来选择划分属性的决策树
a
∗
=
a
r
g
m
a
x
G
a
i
n
(
D
,
a
)
a
∈
A
a_*=argmaxGain(D,a) a∈A
a∗=argmaxGain(D,a)a∈A
C4.5决策树
增益率
信息增益准则可能取值数目较多的属性有所偏好,为了减少这些偏好可能带来不利的影响,C4.5决策树使用"增益率"代替“信息”,增益率定义为
G
a
i
n
r
a
t
i
o
(
D
,
a
)
=
G
a
i
n
(
D
,
a
)
I
V
(
a
)
Gain_ratio(D,a)=\frac{ Gain(D,a)}{IV(a)}
Gainratio(D,a)=IV(a)Gain(D,a)
其中
I
V
(
a
)
=
−
∑
x
V
D
v
D
l
o
g
2
D
v
D
IV(a)=-\sum\limits_{x}^V\frac{ D^v}{D}log_2\frac{ D^v}{D}
IV(a)=−x∑VDDvlog2DDv
称为属性
a
a
a的固定值,
a
a
a的可能取值个数
V
越
大
V越大
V越大,通常其固有值
I
V
(
a
)
IV(a)
IV(a)也越大,但是,增益率对可能取值的数目较少的属性有所偏好。
CART决策树
基尼值
基尼值:从样本集合
D
D
D中随机抽取的两个样本,其类别标记不一致的概率。因此,基尼值越小,碰到异类的概率就越小,纯度自然就越高
G
i
n
i
(
D
)
=
∑
k
=
1
y
∑
k
‘
p
k
p
k
1
Gini(D)=\sum\limits_{k=1}^y\sum\limits_{k^`}p_kp_{k^1}
Gini(D)=k=1∑yk‘∑pkpk1
=
∑
k
=
1
y
p
k
(
1
−
p
k
)
=\sum\limits_{k=1}^yp_k(1-p_k)
=k=1∑ypk(1−pk)
=
1
−
∑
k
=
1
y
p
k
2
=1-\sum\limits_{k=1}^yp_k^2
=1−k=1∑ypk2