小白带你入门——sklearn实现决策树分类的步骤

最新推荐文章于 2024-04-28 16:29:40 发布

小有名气的可爱鬼

最新推荐文章于 2024-04-28 16:29:40 发布

阅读量3.3k

点赞数 8

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：决策树算法 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42305378/article/details/106731095

本文详细介绍了如何使用sklearn库构建决策树分类器，包括关键参数如Criterion、random_state、splitter等的解释，以及fit、score、apply、predict等接口的用途。此外，还提到了max_depth、min_samples_leaf等剪枝参数的重要性，并提供了乳腺癌数据集的分类实例代码。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这篇主要简单的介绍 sklearn中实现决策树要用到的一些参数知识，以及操作的大概框架，方便后面使用sklearn实现决策树分类。有需要的还可以看下我的这篇博客https://blog.csdn.net/weixin_42305378/article/details/106118209，里面是不使用sklearn构造决策树的代码以及有关于信息熵等的知识。

首先先介绍下sklearn中的决策树主要有以下几个参数：

七个参数：Criterion，两个随机性相关的参数（random_state，splitter），四个剪枝参数（max_depth, ，min_sample_leaf，max_feature，min_impurity_decrease）

一个属性：feature_importances_

四个接口：fit，score，apply，predict

Criterion这个参数正是用来决定不纯度的计算方法的。不纯度 : 用来衡量决策树找到最佳节点和最佳分支的指标 ,不纯度越低,决策树对训练集的拟合性也好。sklearn提供了两种选择：

1）criterion="entropy": 使用信息熵，当使用信息熵时，sklearn实际计算的是基于信息熵的信息增益(Information Gain)，即父节点的信息熵和子节点的信息熵之差。

2）criterion="gini": <

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。