小白带你入门——sklearn实现决策树分类的步骤

本文详细介绍了如何使用sklearn库构建决策树分类器,包括关键参数如Criterion、random_state、splitter等的解释,以及fit、score、apply、predict等接口的用途。此外,还提到了max_depth、min_samples_leaf等剪枝参数的重要性,并提供了乳腺癌数据集的分类实例代码。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这篇主要简单的介绍 sklearn中实现决策树要用到的一些参数知识,以及操作的大概框架,方便后面使用sklearn实现决策树分类。有需要的还可以看下我的这篇博客https://blog.csdn.net/weixin_42305378/article/details/106118209,里面是不使用sklearn构造决策树的代码 以及 有关于信息熵等的知识。

首先先介绍下sklearn中的决策树主要有以下几个参数:

七个参数:Criterion,两个随机性相关的参数(random_state,splitter),四个剪枝参数(max_depth, ,min_sample_leaf,max_feature,min_impurity_decrease)

一个属性:feature_importances_

四个接口:fit,score,apply,predict


  • Criterion这个参数正是用来决定不纯度的计算方法的。不纯度 : 用来衡量决策树找到最佳节点和最佳分支的指标 ,不纯度越低,决策树对训练集的拟合性也好。sklearn提供了两种选择:

1)criterion="entropy":  使用信息熵  , 当使用信息熵 时,sklearn实际计算的是基于信息熵的信息增益(Information Gain),即父节点的信息熵和子节点的信息熵之差。

2)criterion="gini":  <

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值