Python版数据挖掘实验4报告：用决策树预测获胜球队.pdf资源-CSDN下载

版权申诉

5星 · 超过95%的资源 141 浏览量 2022-06-23 01:47:19 上传评论收藏 234KB PDF 举报

### Python版数据挖掘实验4报告：用决策树预测获胜球队 #### 实验名称与目的本次实验名为“用决策树预测获胜球队”。其主要目的是利用机器学习中的决策树算法来预测篮球比赛中哪支球队可能获胜。这不仅是一次理论与实践相结合的学习过程，还能够加深学生对决策树这一经典算法的理解及其在实际场景中的应用能力。 #### 实验内容概述实验内容主要包括以下几个方面： 1. **实验环境搭建**：确保所有必要的硬件和软件条件符合要求。 2. **数据准备与预处理**：加载并清洗实验所需的数据集。 3. **特征工程**：基于原始数据创建有助于预测的新特征。 4. **模型训练**：使用决策树算法构建预测模型。 5. **模型评估**：通过交叉验证等方法评估模型性能。 #### 实验环境 - **设备**：笔记本电脑。 - **软件**：Python IDE (如 Jupyter Notebook 或 PyCharm)。 - **实验数据**：两份CSV文件，分别是 `leagues_NBA_2013_standings_expanded-standings.csv` 和 `leagues_NBA_2014_games_games.csv`。 #### 实验步骤详解 1. **加载库与数据读取**： - 需要导入必要的库，包括 Pandas、NumPy、Scikit-Learn 等。这些库提供了数据处理、机器学习等功能。 - 使用 Pandas 的 `read_csv` 方法读取 CSV 文件，并进行初步的数据探索与处理。例如，将日期列与其他列合并，重命名列名等。 ```python import pandas as pd import os from sklearn.model_selection import train_test_split from sklearn.model_selection import cross_val_score import numpy as np from collections import defaultdict from sklearn.tree import DecisionTreeClassifier from sklearn.preprocessing import LabelEncoder from sklearn.preprocessing import OneHotEncoder # 添加文件路径 dataFolder = r"G:\Python36" data_filename = os.path.join(dataFolder, "leagues_NBA_2014_games_games.csv") with open(data_filename): # 读取数据的同时，将第一二列合并为一列 dataset = pd.read_csv(data_filename, parse_dates=[[0,1]]) # 对数据进行查看 print(dataset.iloc[:5]) # 重命名头部 dataset.columns = ["Date", "Visitor Team", "VisitorPts", "Home Team", "HomePts", "OT?", "Notes"] # 数据排序并重新建立索引 dataset.sort_values(by=["Date"], ascending=True, inplace=True) dataset = dataset.reset_index(drop=True) ``` 2. **创建字典，储存比赛结果，抽取数据特征**： - 创建一个默认字典 `won_last` 来存储每支队伍最近一场比赛的结果。 - 基于比赛数据，创建一个新的特征列 `HomeWin`，用于标记主队是否赢得了比赛。 - 为了更好地预测比赛结果，进一步添加了两个新特征 `HomeLastWin` 和 `VisitorLastWin`，分别表示主队和客队上一场比赛的胜负情况。 - 通过迭代每一行数据，更新这些特征值以及字典中的信息。 ```python # 创建字典，用于存储球队上次比赛的结果 won_last = defaultdict(bool) # 新增一列 HomeWin dataset["HomeWin"] = dataset["VisitorPts"] < dataset["HomePts"] y_true = dataset["HomeWin"].values # 创建两个能帮助我们进行预测的特征 dataset["HomeLastWin"] = 0 dataset["VisitorLastWin"] = 0 for index, row in dataset.iterrows(): home_team = row["Home Team"] visitor_team = row["Visitor Team"] row["HomeLastWin"] = won_last[home_team] row["VisitorLastWin"] = won_last[visitor_team] dataset.iloc[index] = row # 更新字典中的信息 won_last[home_team] = row["HomeWin"] won_last[visitor_team] = not row["HomeWin"] ``` 3. **创建决策树**： - 从 Scikit-Learn 库中导入 `DecisionTreeClassifier` 类。 - 使用训练数据拟合决策树模型。 - 设置随机种子以确保实验结果可复现。 ```python # 创建决策树 dt = DecisionTreeClassifier(random_state=1234) # 拟合模型 dt.fit(X_train, y_train) ``` 4. **模型评估**： - 通过交叉验证等方法评估模型的准确率。 - 输出模型性能指标，如准确率、召回率等。 ```python scores = cross_val_score(dt, X, y_true, cv=10) print("Cross-validation scores:", scores) print("Average cross-validation score:", np.mean(scores)) ``` #### 总结本实验通过具体的案例展示了如何使用决策树算法预测NBA比赛的胜者。整个过程涵盖了数据预处理、特征工程、模型训练及评估等多个关键步骤。对于理解决策树的基本原理及其在实际问题中的应用具有重要意义。此外，实验还强调了特征选择的重要性，以及如何通过创建有意义的特征来提高模型的预测能力。

资源推荐

资源详情

资源评论