
机器学习
文章平均质量分 87
简单了解
Gettler•Main
我与我周旋久,宁作我!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
机器学习实验之肿瘤预测(AdaBoost)
【实验要求】AdaBoostClassifier参数解释:base_estimator:弱分类器,默认是CART分类树:DecisionTressClassifieralgorithm:在scikit-learn实现了两种AdaBoost分类算法,即SAMME和SAMME.R, SAMME就是AdaBoost算法,指Discrete。AdaBoost.SAMME.R指Real AdaBoost,返回值不再是离散的类型,而是一个表示概率的实数值。SAMME.R的迭代一般比SAMME快,默认算法是SA原创 2022-06-14 22:58:03 · 3079 阅读 · 0 评论 -
机器学习实验之肿瘤预测与分析(神经网络)
肿瘤预测(AdaBoost)【实验内容】 基于威斯康星乳腺癌数据集,使用AdaBoost算法实现肿瘤预测。【实验要求】 1.加载sklearn自带的数据集,使用DataFrame形式探索数据。 2.划分训练集和测试集,检查训练集和测试集的平均癌症发生率。 3.配置模型,训练模型,模型预测,模型评估。 (1)构建一棵最大深度为2的决策树弱学习器,训练、预测、评估。 (2)再构建一个包含50棵树的AdaBoost集成分类器(步长为3),训练、预测、评估。原创 2022-05-28 09:20:28 · 15690 阅读 · 1 评论 -
机器学习实验之不同含量果汁饮料的聚类(K-Means)
K-Means 实操项目:不同含量果汁饮料的聚类【实验内容】某企业通过采集企业自身流水线生产的一种果汁饮料含量的数据集,来实现K-Means算法。通过聚类以判断该果汁饮料在一定标准含量偏差下的生产质量状况,对该饮料进行类别判定。 【数据集】 该数据集共有样本59个,变量2个,包括juice(该饮料的果汁含量偏差)、sweet(该饮料的糖分含量偏差),单位均为mg/ml。 所有特征变量都为与标准含量相比的偏差,该数据集没有目标类别标签变量。【实验要求】1.加载数据集,读取数据,探索数原创 2022-05-28 09:20:55 · 2567 阅读 · 1 评论 -
机器学习实验之肿瘤预测(决策树)
肿瘤预测(决策树)【实验内容】 基于威斯康辛乳腺癌数据集,采用决策树的方法进行肿瘤预测。【实验要求】1.加载sklearn自带的威斯康星乳腺癌数据集,探索数据。2.进行数据集分割。3.配置决策树模型。4.训练决策树模型。5.模型预测。6.模型评估。7.参数调优。可以根据评估结果,对模型设置或调整为更优的参数,使评估结果更准确。from sklearn.datasets import load_breast_cancerfrom sklearn.model_select原创 2022-05-27 23:10:12 · 15165 阅读 · 3 评论 -
机器学习实验之顾客购买服装的分析与预测
顾客购买服装的分析与预测【实验内容】采用决策树算法,对“双十一”期间顾客是否买服装的数据集进行分析与预测。顾客购买服装数据集:包含review(商品评价变量)、discount(打折程度)、needed(是否必需)、shipping(是否包邮)、buy(是否购买)。【实验要求】1.读取顾客购买服装的数据集(数据集路径:data/data76088/3_buy.csv),探索数据。2.分别用ID3算法和CART算法进行决策树模型的配置、模型的训练、模型的预测、模型的评估。3.扩展内容(选做):对原创 2022-05-27 18:47:48 · 14556 阅读 · 4 评论 -
机器学习实验之肿瘤分类与预测(SVM)
肿瘤分类与预测(SVM)【实验内容】采用SVM方法,对美国威斯康星州的乳腺癌诊断数据集进行分类,实现针对乳腺癌检测的分类器,以判断一个患者的肿瘤是良性还是恶性。【实验要求】参考实现步骤:(具体实现可以不同)1.加载data文件夹里的数据集:威斯康星乳腺肿瘤数据集(数据集路径:data/data74924/data.csv)。2.查看样本特征和特征值,查看样本特征值的描述信息。3.进行数据清洗(如删除无用列,将诊断结果的字符标识B、M替换为数值0、1等)。4.进行特征选取(方便后续的模原创 2022-05-27 18:09:18 · 17888 阅读 · 3 评论 -
机器学习实验之肿瘤分类与预测(朴素贝叶斯)
肿瘤分类与预测(朴素贝叶斯)【实验内容】采用朴素贝叶斯方法,对美国威斯康星州的乳腺癌诊断数据集进行分类,实现针对乳腺癌检测的分类器,以判断一个患者的肿瘤是良性还是恶性。【实验要求】1.导入sklearn自带的数据集:威斯康星乳腺肿瘤数据集(load_breast_cancer)。2.打印数据集键值(keys),查看数据集包含的信息。3.打印查看数据集中标注好的肿瘤分类(target_names)、肿瘤特征名称(feature_names)。4.将数据集拆分为训练集和测试集,打印查看训练原创 2022-05-27 18:06:55 · 4665 阅读 · 1 评论 -
机器学习实验之影厅观影人数预测
1.读取给定文件中数据集文件。(数据集路径:data/data72160/1_film.csv)2.绘制影厅观影人数(filmnum)与影厅面积(filmsize)的散点图。3.绘制影厅人数数据集的散点图矩阵。4.选取特征变量与相应变量,并进行数据划分。5.进行线性回归模型训练。6.根据求出的参数对测试集进行预测。7.绘制测试集相应变量实际值与预测值的比较。8.对预测结果进行评价。原创 2022-05-27 17:58:27 · 1189 阅读 · 3 评论 -
机器学习实验之糖尿病预测
机器学习实验之糖尿病预测实验内容: diabetes 是一个关于糖尿病的数据集, 该数据集包括442个病人的生理数据及一年以后的病情发展情况。 该数据集共442条信息,特征值总共10项, 如下: age:年龄 sex:性别 bmi(body mass index):身体质量指数,是衡量是否肥胖和标准体重的重要指标,理想BMI(18.5~23.9) = 体重(单位Kg) ÷ 身高的平方 (单位m) bp(blood pressure):血压(平均血压) s1,s2,s3原创 2022-05-27 17:55:44 · 22246 阅读 · 2 评论 -
Pandas实战 Facebook 数据集预测签到位置
【代码】Pandas实战 Facebook 数据集预测签到位置。原创 2022-02-11 22:52:38 · 1968 阅读 · 0 评论 -
Pandas 学习笔记二
【代码】Pandas 学习笔记二。原创 2022-02-02 18:50:24 · 1899 阅读 · 0 评论 -
Pandas 学习笔记一
Pandas 学习核心数据结构DataFrameimport numpy as npdata = np.random.normal(0,1,(10,5))dataarray([[ 1.21218494, -0.30678674, -0.66781485, 0.13414137, 0.79799153], [-1.35105539, 1.26378017, 0.04932303, -0.93626636, -0.1161889 ], [-0.01031587,原创 2022-01-30 22:43:29 · 2302 阅读 · 0 评论 -
Numpy 学习笔记
bool值,true的位置的值,false的位置的值。同 np.dot(data1,data2)传bool值,全为true才返回true。因为读取后的数据处理较为繁琐,故一般只用。有一个为true就返回true。同 data1 @ data2。axis = 0 按列。axis = 1 按行。原创 2022-01-28 17:57:40 · 2749 阅读 · 0 评论 -
Matplotlib 绘图 笔记
from jupyterthemes import jtplotjtplot.style(theme='monokai') #选择一个绘图主题import matplotlib.pyplot as plt# 个别环境需要以下代码%matplotlib inlineplt.figure()plt.plot([1,0,9],[4,5,6])plt.show()折线图绘制与显示# 展现一周天气# 1.创建画布plt.figure(figsize=(20,8)) # plt.figu原创 2022-01-22 11:21:27 · 6114 阅读 · 4 评论 -
机器学习笔记一 特征工程
sklearn 库加载数据集小数据集sk.datasets.load_iris();大数据集sk.datasets.fetch_20newsgroups()数据集返回值datasets.base.Bunch(继承自字 典类型)使用数据集# 数据集使用def datasets_demo(): iris = load_iris(); print("鸢尾花数据集:\n", iris) print("数据集描述:\n", iris["DESCR"])原创 2022-01-17 10:08:14 · 4954 阅读 · 0 评论