基于决策树判断是否降雪，机器学习课程设计.zip资源-CSDN下载

共21个文件

py：7个

pyc：5个

csv：4个

版权申诉

人工智能

机器学习

35 浏览量 2024-02-15 14:31:46 上传评论收藏 240KB ZIP 举报

在这个机器学习课程设计项目中，我们关注的是使用决策树算法来预测是否会有降雪。决策树是一种广泛应用的监督学习模型，常用于分类问题，它的结构直观易懂，能清晰地展示决策过程。在这个项目中，我们可以学到如何利用决策树解决实际问题，特别是在气象预测领域。我们需要理解决策树的基本原理。决策树通过不断划分数据集，根据特征的重要性构建树状模型。每个内部节点代表一个特征，每个分支代表该特征的一个可能值，而叶节点则代表最终的类别决定。信息增益或基尼不纯度等指标常用来衡量特征的选择，以找到最优划分。在"Snowfall-prediction-based-on-decision-tree-main"这个主文件夹中，我们可能会找到以下文件和子文件夹： 1. 数据集：可能包含一个CSV文件，比如"weather_data.csv"，其中包含历史气象数据，如温度、湿度、风速、气压等，以及对应的降雪标签（1表示有降雪，0表示无降雪）。数据预处理是关键步骤，包括缺失值处理、异常值检测和特征工程。 2. 模型训练脚本：可能有Python代码文件，如"train_model.py"，其中实现决策树模型的训练。使用诸如scikit-learn这样的库，我们可以创建决策树模型，并用训练数据对其进行拟合。 3. 特征重要性分析：在训练过程中，模型会自动评估各特征对预测结果的影响。这些信息通常会以可视化或文本形式展示，帮助我们理解哪些气象因素对降雪预测最重要。 4. 模型验证与调优：项目可能包含了交叉验证（如k-fold CV）来评估模型性能，以及参数调优（如使用网格搜索或随机搜索）来优化模型的超参数，如树的最大深度、最小样本分裂阈值等。 5. 预测与评估：文件可能还包含预测脚本，如"predict_snowfall.py"，它使用测试集数据或实时数据进行预测，并通过准确率、精确率、召回率、F1分数等指标来评估模型性能。 6. 可视化：为了更好地理解和解释模型，可能会有图表生成，如特征重要性图、决策树结构图等。 7. 报告文档：可能有一份报告文件，如"CourseDesignReport.pdf"，详细阐述了项目的目标、方法、结果和结论，展示了学习过程和思考。通过对这些文件的深入理解和实践，不仅可以掌握决策树算法，还能了解机器学习项目的完整流程，从数据准备到模型训练，再到评估和优化。这对于提升数据分析和机器学习技能非常有益。

资源推荐

资源详情

资源评论

收起资源包目录

基于决策树判断是否降雪，机器学习课程设计.zip （21个子文件）

Snowfall-prediction-based-on-decision-tree-main

vail_and_test.py 1KB

main.py 905B

Ui_design.py 4KB

data_read.py 4KB

WidgetMain.py 425B

graph

QQ图片20220101170709.png 8KB

界面.png 26KB

_6P9C]PXGFJNU3_7HSZV]}S.png 8KB

流程图.png 39KB

数据

BTree.pickle 1KB

test_data.csv 158KB

test_kunming.csv 308KB

data.csv 309KB

rate.csv 299B

CART.py 3KB

__pycache__

data_read.cpython-38.pyc 3KB

config.cpython-38.pyc 355B

CART.cpython-38.pyc 3KB

Ui_design.cpython-38.pyc 3KB

vail_and_test.cpython-38.pyc 2KB

config.py 297B

import pandas as pd import numpy as np import random from config import all_data_road, after_clean_saving_data, after_clean_saving_rate # 主成分分析 def pca(dataset, k, x): n, m = np.shape(dataset) # cov为协方差矩阵 cov = np.cov(dataset.astype(float)) # a为特征值， b为特征向量 a, b = np.linalg.eig(cov*(m-1)/m) c = np.array(list(range(1, 13))) a = np.vstack((a, c)) a = a.T a = a[np.argsort(a[:, 0]), :] res = x[int(a[-1, 1])] for i in range(1, k): res = np.vstack([res, x[int(a[-1-i, 1])]]) return a, res def normalize(x): n, m = np.shape(x) max_arr = np.max(x, axis=1) min_arr = np.min(x, axis=1) for i in range(n): for j in range(m): if max_arr[i] == min_arr[i]: x[i, j] = 0 else: x[i, j] = (x[i, j]-min_arr[i])/(max_arr[i]-min_arr[i]) return x def load_data(): data = np.loadtxt(after_clean_saving_data, dtype=np.float, delimiter=',') return data def data_load_clean(k): df = pd.read_csv(all_data_road) dataset = np.array(df) n, m = np.shape(dataset) dataset = dataset[0:n, 3:m] n, m = np.shape(dataset) for i in range(n): dataset[i, m-1] = int(dataset[i, m-1] == "YES") pos_example = dataset[1, :] neg_example = dataset[1, :] pos = 0 neg = 0 for i in range(n): if dataset[i, m - 1] == 1: # 由于正样本太少，把正样本额外存起来 pos_example = np.vstack([pos_example, dataset[i, :]]) pos = pos + 1 else: neg_example = np.vstack([neg_example, dataset[i, :]]) neg = neg + 1 tnum = int(neg / pos / 4) dataset = dataset[1, :] for i in range(tnum): pos_example_1 = pos_example * 1.1 pos_example_9 = pos_example * 0.9 for t in pos_example_1: t[-1] = round(t[-1]) dataset = np.vstack([dataset, pos_example_1]) dataset = np.vstack([dataset, pos_example]) dataset = np.vstack([dataset, neg_example]) n, m = np.shape(dataset) # 防止nan的出现 for i in range(0, n): for j in range(0, m): if np.isnan(dataset[i, j]): dataset[i, j] = (dataset[i - 1, j] + dataset[i - 2, j]) / 2 dataset = dataset.T data = dataset.copy() n, m = np.shape(data) # 拆分标签和属性 x = data[0:n - 1, :] y = data[n - 1, :] x = normalize(x) # 主成分分析，保留k个属性 feature_sort, res = pca(x, k, dataset) res = np.vstack([res, y]) res = res.T np.savetxt(after_clean_saving_data, res, delimiter=',', fmt='%s') np.savetxt(after_clean_saving_rate, feature_sort, delimiter=',', fmt='%s') n, m = np.shape(res) pos = n - neg return res, pos, neg def split_tt(data, pos, neg): n, m = np.shape(data) ls_test = [] ls_vail = [] ls_train = [] test_num = int(n / 32) * 4 for i in range(int(test_num/2)): x = -1 y = -1 while (x < 0) | ((x in ls_test) & (y in ls_test)): x = random.randint(0, pos) y = random.randint(pos, n - 1) ls_test.append(x) ls_test.append(y) vail_num = int(n / 20) * 2 for i in range(int(vail_num/2)): x = -1 y = -1 while (x < 0) | ((x in ls_test) & (y in ls_test)) | ((x in ls_vail) & (y in ls_vail)): x = random.randint(0, pos) y = random.randint(pos, n - 1) ls_vail.append(x) ls_vail.append(y) train_num = n - vail_num - test_num for i in range(n): if (i not in ls_test) & (i not in ls_vail): ls_train.append(i) train = data[ls_train[0]] test = data[ls_test[0]] vail = data[ls_vail[0]] for i in range(1, train_num): train = np.vstack([train, data[ls_train[i]]]) for i in range(1, vail_num): vail = np.vstack([vail, data[ls_vail[i]]]) for i in range(1, test_num): test = np.vstack([test, data[ls_test[i]]]) n, m = np.shape(test) np.savetxt("test_data.csv", test[:, 0:m-1], delimiter=',') return train, vail, test

评论收藏

内容反馈

版权申诉