基于Python的自定义随机森林（Random Forest）分类器-CSDN博客

本文链接：https://blog.csdn.net/qq_42679807/article/details/149356783

本文介绍了一个基于Python的自定义随机森林（Random Forest）分类器，并将其应用于MNIST手写数字识别任务。以下从算法原理、核心代码和核心用途三个方面详细说明：

1.算法原理概述

随机森林是一种基于集成学习（Ensemble Learning）的监督学习算法，核心思想是通过构建多棵独立的决策树，并综合它们的预测结果（分类任务采用多数投票，回归任务采用均值）来提升模型的泛化能力和准确性。其关键机制包括：

（1）自助采样（Bootstrap Sampling）：从原始数据集中有放回地随机抽取样本，生成多个不同的训练子集（每棵树使用不同的子集）。

（2）特征随机选择：每棵树训练时仅使用随机选择的特征子集（而非全部特征），降低树之间的相关性。

（3）多数投票（Majority Voting）：分类任务中，多棵树的预测结果通过投票决定最终类别；回归任务中取均值。

2.数据加载与预处理

本节准备MNIST数据集并划分为训练集和测试集。

MNIST数据集：包含6万张训练图和1万张测试图，每张图是28×28像素的手写数字，展平为784维特征向量，标签为对应的数字（0-9）。

# 数据加载与预处理
data = pd.read_csv('mnist_data.csv')
X = data.drop(columns=['label'])
y = data['label']

# 划分数据集
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

3.自定义随机森林类(CustomRandomForest类）

本节介绍了CustomRandomForest类，该类封装了随机森林的核心逻辑，包括数据采样、特征选择、决策树训练和预测。

(1) 初始化方法(init函数)

__init__函数主要设置随机森林的超参数，并初始化存储结构。

def __init__(self, n_estimators=100, max_depth=5, max_features='sqrt', bootstrap=True):
    self.n_estimators = n_estimators       # 决策树数量（森林规模）
    self.max_depth = max_depth             # 每棵树的最大深度（限制复杂度，防过拟合）
    self.max_features = max_features       # 每棵树随机选择的特征数（如√(总特征数)）
    self.bootstrap = bootstrap             # 是否使用自助采样（默认开启）
    self.trees = []                        # 存储训练好的决策树及对应特征子集
    self.feature_indi