鸢尾花数据集的线性多分类

本文介绍了鸢尾花数据集在机器学习中的应用,通过取萼片和花瓣的长宽作为特征,利用逻辑回归进行线性多分类。首先概述了鸢尾花数据集的内容和分类目标,接着分别展示了如何使用萼片和花瓣特征训练模型,并提供了相关代码片段。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、简介

  • Iris数据集(鸢尾花卉数据集):
    • 是常用的分类实验数据集,由Fisher在1936年收集整理。
    • 多重变量分析的数据集,包含150个数据样本,分为3类(SetosaVersicolourVirginica),每类50个数据,每个数据包含4个属性(花萼长度,花萼宽度,花瓣长度,花瓣宽度)。
    • 可通过4个属性预测鸢尾花卉属于三个种类中的哪一类。
  • LogisticRegression(逻辑回归):
    • 逻辑回归(Logistic Regression)与线性回归(Linear Regression)都是一种广义线性模型(generalized linear model)。
    • 逻辑回归(Logistic Regression)是用于处理因变量为分类变量的回归问题,常见的是二分类或二项分布问题,也可以处理多分类问题。

二、实现线性多分类

1. 取萼片的长宽作为特征进行分类

  • 导入相关包:
import numpy as np
from sklearn.linear_model import LogisticRegression
import matplotlib.pyplot as plt
import matplotlib as mpl
from sklearn import datasets
from sklearn import preprocessing
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
  • 获取数据集:
df = pd.read_csv('http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data', header=0)
x = df.values[:, :-1]
y = df.values[:, -1]
print('x = \n', x)
print('y = \n', y)
le = preprocessing.LabelEncoder()
le.fit(['Iris-setosa', 'Iris-versicolor', 'Iris-virginica'
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值