【实战 python】 第4章 决策树—— 信息增益 ID3(连续值处理)习题4.3 python实现

4.3 试编程实现基于信息熵进行划分选择的决策树算法,并为表4.3中数据生成一棵决策树。

理论知识:笔记(四)机器学习(周志华)第4章 决策树

Homework4.3-ID3Model.py

#!/usr/bin/python
# -*- coding: utf-8 -*-
# @Time    : 2019/8/20 9:00
# @Author  : Cabbage
# @project : decisionTree
# @FileName: Homework4.3-ID3Model.py
# @Blog    :https://blog.csdn.net/lzbmc

from numpy import *
import pandas as pd
from math import log
import operator
import pickle  # python序列化对象,这里序列化保存树结构的字典对象

# 计算数据集的香农熵
def calcShannonEnt(dataSet):
    numEntries = len(dataSet)  # 分母:训练数据的数量
    labelCounts = {}  # 分子:数据集或者每个子集中,每个类别(好瓜、坏瓜)出现的次数
    # 给所有可能分类创建字典
    for featVec in dataSet:
        currentLabel = featVec[-1]  # 取最后一列数据
        if currentLabel not in labelCounts.keys():  # 第一次出现时先给它初始值0
            labelCounts[currentLabel] = 0
        labelCounts[currentLabel] += 1
    shannonEnt = 0.0
    # 以2为底数计算香农熵
    for key in labelCounts:
        prob = float(labelCounts[key]) / numEntries
        shannonEnt -= prob * log(prob, 2)  # Ent=-(∑pk㏒pk)  --> Ent减每一个结果 P75(4.1)
    return shannonEnt


# 对离散变量划分数据集,取出该特征取值为value的所有样本
def splitDataSet(dataSet, axis, value):
    retDataSet = []
    for featVec in dataSet:
        if featVec[axis] == value:  # 判断此列axis的值是否为value
            reducedFeatVec = featVec[:axis]  # 此行数据的前axis列
            reducedFeatVec.extend(featVec[axis + 1:])  # axis列之后的数据
            retDataSet.append(reducedFeatVec)  # 注意extend与append的区别。
            # 三句合写为一句
            # retDataSet.append(featVec[:axis] + featVec[axis + 1:])
            # a、b为例,extend,append是在a原地址操作,改变的是a。
            # extend:去掉列表b最外层的[],然后追加到a。append:将整个列表b作为一个值来添加。
            # +:新的变量c来实现相加,相加的过程和extend一样,但不是在被加的对象的地址上操作的。
    return retDataSet


# 对连续变量划分数据集——二分法。不大于或者大于value的样本分别保存,进行划分
# direction规定划分的方向,决定是划分出小于value的数据样本还是大于value的数据样本集
def splitContinuousDataSet(dataSet, axis, value, direction):
    retDataSet = []
    for featVec in dataSet:
        if direction == 0:
            if featVec[axis] > value:
                retDataSet.append(featVec)  # 连续型特征和特征值都不删除
        else:
            if featVec[axis] <= value:
                retDataSet.append(featVec)
    return retDataSet


# 选择最好的数据集划分方式
def chooseBestFeatureToSplit(dataSet, labels):
    numFeatures = len(dataSet[0]) - 1  # 特征的数目,最后一列是类别
    baseEntropy = calcShannonEnt(dataSet)  # 经验熵 Ent(D)
    bestInfoGain = 0.0  # 最优的信息增益值。
    bestFeature = -1  # 最优的Feature编号
    bestSplitDict = {}  # key:value = {连续型特征标签:最优划分点}
    # bestSplitValue = None  # 连续型特征的最优划分点
    for i in range(numFeatures):
        featList = [example[i] for example in dataSet]  # 获取第i列(第i特征)下的所有数据,存到列表中

        # 对连续型特征进行处理
        # 为每一个连续型特征寻找最优划分点,并计算在最优划分点时的信息增益
        if type(featList[0]).__name__ == 'float' or type(featList[0]).__name__ == 'int':  # 判断当前属性是否为连续型.等价于type(featList[0]) == float:
            # 产生n-1个候选划分点
            sortfeatList = sorted(featList)  # 二分法:先对属性值从小到大进行排序
            splitList = []
            for j in range(len(sortfeatList) - 1):  # 每一个划分点是相邻属性值的平均
                splitList.append((sortfeatList[j] + sortfeatList[j + 1]) / 2.0)

            bestSplitEntropy = 10000
            slen = len(splitList)  # 划分点个数
            # 求用第j个候选划分点划分时,得到的信息熵,并记录最佳划分点
            for j in range(slen):
  
### ID3、C4.5 和 CART 决策树计算题练习 #### 关于ID3决策树的计算题示例 假设有一个简单的数据集,其中包含四个属性:天气(晴朗/阴天)、温度(热/冷)、湿度(高/低)和风速(强/弱),目标变量是是否适合户外活动(是/否)。为了创建一个基于此数据集的ID3决策树: 1. **熵的计算** 对于整个数据集D,如果存在P个正类样本和N个负类样本,则该集合的信息熵定义为\[H(D)=-\sum_{i=1}^{|\text{类别}|}{p_i \log_2 p_i}\]。例如,在给定的数据集中有9个“是”的实例和5个“否”的实例,那么初始信息熵可以表示为\( H(D)=-(\frac{9}{14})\log_2(\frac{9}{14}) - (\frac{5}{14})\log_2(\frac{5}{14})\)。 2. **信息增益的选择** 接下来对于每一个可能作为根节点划分条件的属性A,计算其带来的信息增益Gain(A),即原始数据集的信息熵减去按照这个属性分割后的加权平均熵之差。\[ Gain(A)=H(D)-\sum_{v=1}^V{\frac{|D_v|}{|D|}H(D_v)}\] 通过上述方式找到具有最大信息增益的属性来决定当前结点的最佳分裂标准[^1]。 ```python import math def entropy(data): total = sum([item[&#39;count&#39;] for item in data]) return -sum([(item[&#39;count&#39;]/total)*math.log(item[&#39;count&#39;]/total, 2) for item in data]) data = [{&#39;label&#39;: &#39;yes&#39;, &#39;count&#39;: 9}, {&#39;label&#39;: &#39;no&#39;, &#39;count&#39;: 5}] initial_entropy = entropy(data) print(f&#39;Initial Entropy: {initial_entropy}&#39;) ``` #### C4.5决策树的计算题示例 与ID3相似,但在选择最佳特征时引入了信息增益率的概念,这有助于解决由于某些离散型特征取值过多而导致的信息增益偏高的问题。具体做法是在计算每个候选特征的信息增益之后再除以其固有价值(Intrinsic Value)。 设某特征T将训练集S划分为k部分,\( S=\bigcup _{{i=1}}^{k}S_{i}\),则该特征的固有价值可由下式给出:\[\ IV(T)=-\sum _{{i=1}}^{k}{\left({\frac {|S_{i}|}{|S|}}\right)\cdot \log {\frac {|S_{i}|}{|S|}}}\] 接着用信息增益除以IV得到信息增益比率: \[GR(T)=\frac{Gain(S,T)}{IV(T)}\] 选取使GR最大的那个特征作为测试条件。 #### CART决策树的计算题示例 考虑到CART既可以做分类也可以做回归的任务,这里提供一个分类的例子。当构建分类树时采用基尼指数最小化原则来进行节点分裂。假设有如下表格描述了一个小型贷款申请者的信用状况评估情况表,其中包括年龄、工作年限等因素以及最终批准与否的结果列。 - 基尼系数衡量的是随机抽取两个样本属于同一类别的概率与其不属于同一种类型的概率之间的差距大小。对于二元分类而言,它可以通过下面公式求解:[^2] 设某个子集中共有m个样本,其中有n个正面案例,则该子集的Gini不纯度为: \[ Gini(m,n)=(1-\left ( \frac{n}{m+n} \right ) ^2)-(1-\left ( \frac{m}{m+n} \right ) ^2 ) \] 针对以上三种算法提供了基本框架下的简单例子,实际应用中还需要考虑更多细节比如缺失值处理等。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值