机器学习10-决策树1
学习样本的特征,将样本划分到不同的类别(分类问题)或预测连续的数值(回归问题)。
- 选择特征,划分数据集,划分完成形成模型(树结构),一个叶节点是一个类别
- 新的需要判断的数据进入模型,根据某种距离,最近的那个类就是模型输出
内容有点多,要分开
文章目录
概念
节点(Node):决策树中的每一个点,包括决策节点和叶节点。
决策节点(Decision Node):表示一个属性的判断节点。
叶节点(Leaf Node):表示最终决策结果的节点。
分支(Branch):连接节点的线,代表决策的路径。
路径(Path):从根节点到叶节点的一条完整路径。
通过一系列的决策规则将数据集划分成不同的子集,形成一个树状结构。每个内部节点表示一个特征(或属性),每个分支表示该特征的一个取值,每个叶子节点表示一个类别或预测值。
流程
决策树算法的学习过程通常包括三个主要步骤:特征选择、决策树的生成和决策树的剪枝。
- 特征选择:在构建决策树时,首先需要从数据集中选择最具分类能力的特征。这通常通过计算特征的信息增益、信息增益比或基尼指数等指标来完成。
- 决策树的生成:根据选择的特征,将数据集划分为若干个子集,并为每个子集生成相应的子树。这个过程是递归进行的,直到满足某个停止条件。
- 常见的停止条件包括:
所有样本都属于同一个类别。
达到预设的树的最大深度。
节点中的样本数少于最小样本数限制。
特征无法再进一步划分。 - 决策树的剪枝:由于生成的决策树可能过于复杂,存在过拟合的风险,因此需要通过剪枝来简化树的结构,提高模型的泛化能力。剪枝