2021-07-22

信息熵

自信息

一、
I ( X ) = − l o g b p ( x ) I(X)=-log_bp(x) I(X)=logbp(x)
当b=2时,其单位为比特,当b=e时,其单位为nat
信息熵(自由信息的期望):度量随机变量 X X X的不确定性,信息熵越大越不确定
H ( X ) = E [ I ( X ) ] = − ∑ x p ( x ) l o g b p ( x ) H(X)=E[I(X)]=-\sum\limits_{x}p(x)log_bp(x) H(X)=E[I(X)]=xp(x)logbp(x)
计算信息熵时约定:若 p ( x ) = 0 p(x)=0 p(x)=0,则 p ( x ) l o g b p ( x ) = 0 p(x)log_bp(x)=0 p(x)logbp(x)=0.当 X X X的某个取值的概率为1时熵最小,其值为0;当 X X X的各个取值的概率均等时信息熵最大。其值为 l o g b ∣ X ∣ log_b|X| logbX,其中 ∣ X ∣ |X| X表示 X X X可能取值的个数。
二、将样本类别标记为 y y y视作随机变量,各个类别在样本几何 D D D中的占比 P k ( k = 1 , 2 , 3... ∣ y ∣ ) Pk(k=1,2,3...|y|) Pk(k=1,2,3...y)视作各个类别取值的概率,则样本集合 D ( 随 机 变 量 y ) D(随机变量y) D(y)的信息熵(底数b取2)为
E n t ( D ) = − ∑ x = 1 y p k l o g 2 p k Ent(D)=-\sum\limits_{x=1}^yp_klog_2p_k Ent(D)=x=1ypklog2pk
此时信息熵所代表的不确定性可以转换理解为集合内样本的纯度。

ID3决策树

算法原理

一、
1.从逻辑的角度分析,通过大量的条件判断语句的组合
2.从几何的的角度分析,根据某种准则划分特征空间
3.最终母的:将样本越分越纯
在这里插入图片描述

通过几何的角度来分析玫瑰(特征分类),
①对于色泽和红色的值越大的玫瑰,我们将它认为是好的玫瑰。
②色泽与红色值越小的玫瑰,我们将它认为不好的玫瑰。

条件熵

条件熵( Y Y Y的信息熵关于概率分布 X X X的期望):在已知 X 和 Y X和Y XY的不确定性时,
H ( Y / X ) = ∑ x p ( x ) H ( Y / X = x ) H(Y/X)=\sum\limits_{x}p(x)H(Y/X=x) H(Y/X)=xp(x)H(Y/X=x)
从单个属性特征 a a a来看,假设其可能取值为 a 1 , a 2 . . . . a v , D v a^1,a^2....a^v,D^v a1,a2....av,Dv表示属性 a a a取值为 a v ∈ a 1 , a 2 . . . . a v a^v∈{a^1,a^2....a^v} ava1,a2....av的样本集合。 D v D \frac{ D^v}{D} DDv的表示占比,那么在已知属性 a a a的取值后,样本的集合 D D D的熵为
∑ x V D v D E n t ( D v ) \sum\limits_{x}^V\frac{ D^v}{D}Ent(D^v) xVDDvEnt(Dv)

信息增益

在已知属性特征 a a a的取值后 y y y的不确定性减少的量,也即纯度的提升
G a i n ( D , a ) = E n t ( D ) − ∑ x V D v D E n t ( D v ) Gain(D,a)=Ent(D)-\sum\limits_{x}^V\frac{ D^v}{D}Ent(D^v) Gain(D,a)=Ent(D)xVDDvEnt(Dv)
以信息增益为准则来选择划分属性的决策树
a ∗ = a r g m a x G a i n ( D , a ) a ∈ A a_*=argmaxGain(D,a) a∈A a=argmaxGain(D,a)aA

C4.5决策树

增益率

信息增益准则可能取值数目较多的属性有所偏好,为了减少这些偏好可能带来不利的影响,C4.5决策树使用"增益率"代替“信息”,增益率定义为
G a i n r a t i o ( D , a ) = G a i n ( D , a ) I V ( a ) Gain_ratio(D,a)=\frac{ Gain(D,a)}{IV(a)} Gainratio(D,a)=IV(a)Gain(D,a)
其中
I V ( a ) = − ∑ x V D v D l o g 2 D v D IV(a)=-\sum\limits_{x}^V\frac{ D^v}{D}log_2\frac{ D^v}{D} IV(a)=xVDDvlog2DDv
称为属性 a a a的固定值, a a a的可能取值个数 V 越 大 V越大 V,通常其固有值 I V ( a ) IV(a) IV(a)也越大,但是,增益率对可能取值的数目较少的属性有所偏好。

CART决策树

基尼值

基尼值:从样本集合 D D D中随机抽取的两个样本,其类别标记不一致的概率。因此,基尼值越小,碰到异类的概率就越小,纯度自然就越高
G i n i ( D ) = ∑ k = 1 y ∑ k ‘ p k p k 1 Gini(D)=\sum\limits_{k=1}^y\sum\limits_{k^`}p_kp_{k^1} Gini(D)=k=1ykpkpk1
             = ∑ k = 1 y p k ( 1 − p k ) =\sum\limits_{k=1}^yp_k(1-p_k) =k=1ypk(1pk)
             = 1 − ∑ k = 1 y p k 2 =1-\sum\limits_{k=1}^yp_k^2 =1k=1ypk2

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值