【机器学习基础】随机森林算法

最新推荐文章于 2025-06-23 18:35:03 发布

原创

最新推荐文章于 2025-06-23 18:35:03 发布 · 5.8k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

本文介绍了随机森林算法，它是结合Bagging算法和决策树特点的一种方法。随机森林在数据集上进行特征抽样和数据抽样，通过并行计算训练多棵树，并利用Out-Of-Bag Estimate进行模型验证。此外，文章还探讨了特征投影、特征扩展、特征选择及其优缺点，特别是Permutation Test在特征重要性评估中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

引入

我们回顾一下之前学习的两个算法，Bagging算法中，通过bootstrapping得到不一样的数据，通过这些数据送到一个基本算法之后，得到不同的g，最后对这些g取平均得到G；决策树算法中，通过递归方式建立子树，最终得到一棵完整的树。
这两种算法都有其鲜明的特点，决策树对于不同的数据相对会敏感一些，即其算法的variance很大，而Bagging的特点是通过投票和平均的方式来降低variance的效果。如果将这两种方法结合起来，就是该文要介绍的随机森林，random forest。

1. 随机森林算法

随机森立算法中的“随机”一词是指通过Bagging中的bootstrapping得到不同的数据，进而体现出来的随机性，而得到这笔数据用来送进CART算法训练得到一棵树，最后将所得的树做平均得到最终结果。

并行计算的可能性：随机森林算法从Bagging过程中可以分配到不同的计算机中进行计算，每台计算机可以独立学习一棵树，不同的树之间没有任何依赖关系。这使得Bagging过程很容易实现并行化。

2. 特征投影(Feature Projection)

在Bagging算法中，通过bootstrap在原来的数据中进行抽样，来得到不同的数据集，从而产生不同的g。
在随机森林的算法中，除了在数据集中做抽取之外，还可以在特征这一角度进行抽取。举个例子，如果事先我们有100个特征，现在我们可以抽取10个特征来训练一棵树，这样的方式我们也可以得到很不一样的树，其对于分类的标准显然也很不一样。
这种特征抽取的方式相当于在原来特征的100个维度中，随机选取10个维度，这等效于一个特征转换，这个过程中，从100维度到10个维度的转换中，相当于作了低维度的投影(Projection)。