机器学习——逻辑回归原理真的用心了

逻辑回归作为一种基础的分类模型，在机器学习中占据着不可替代的位置。回归是用曲线拟合数据，逻辑回归并非一种回归运算，而是分类算法。接下来进行参数估计，目的是使用现有样本（已分类）训练得到一些参数θ（有些文章中是w和b），使得θ与x的线性组合z映射到sigmoid函数上，可以使这些训练集样本x出现现有分类结果的概率L(θ)极大化，也就是极大似然函数取最大值（此处也可考虑极大似然函数加一个负号转化成损失函数，使损失函数极小化也可达到同样目的）。通过极大似然函数最大化可以推导出θ的求解公式，根据不同的似然函数可以得到两种θ的求解方法，分别是最优化算法中的随机梯度下降法和全批量梯度下降法。最终得出这条分类线，即为最大程度上区分两种或多种类别的、依赖于参数θ的分类线。最终使用这些θ对测试集进行预测，计算预测精度，观察Logistic模型拟合情况。
（纯原创，有错希望大家指正）

1. Logistic原理

1.1 Sigmoid函数

Sigmoid函数是一个值域为(0,1)的s型曲线，它可以将线性函数的任意值映射到s曲线上，作为预计判为正类别(class1)的概率。我们可以任意设定阈值，假设设定为0.5，则映射到Sigmoid函数上值在(0,0.5)内的被判为class0，在(0.5,1)内被判为class1。函数图像如下:
在这里插入图片描述

1.2 前提假设

仅对于一个样本而言，有:

在这里插入图片描述

一式是用sigmoid函数计算出来的概率，第三个公式为一、二式的整合。

1.3 构造似然函数或损失函数

对于多个独立样本而言，由上述第三个公式构造似然函数:
在这里插入图片描述
其中

在这里插入图片描述

为方便求解将似然函数取对数，得到其对数似然函数:

在这里插入图片描述
求对数似然函数的极大值，或者由其构造逻辑回归的对数交叉熵损失函数，只需在前面加负号即可。
关于损失函数的种类此处插入图示:

1.4 参数估计

对极大似然函数进行一系列偏导为零求极值:

在这里插入图片描述得到最终θ的参数估计，是对应于全批量梯度下降的公式:
还有一种随机梯度下降公式:
全批量梯度下降每次计算都需用到全部数据，计算复杂但在凸函数时可以得到全局最优解；而随机梯度下降每次只需用到一组数据，计算简单但是得到的是局部最优解。

1.5 进行预测并计算精度

有监督学习的好处在于有正确分类的测试集以供测试，通过测试集测试结果计算训练模型的精度，以期判断模型的优劣。

2. 代码实现

2.1 简单案例

2.1.1 库函数导入

import numpy as np              #基础库
import matplotlib.pyplot as plt #画图库
import seaborn as sns           #画图库
from sklearn.linear_model import LogisticRegression #逻辑回归模型函数

2.1.2 模型训练

数据集分为特征数组与标签数组:

#构造数据集
x_features=np.array([[-1,-2],[-2,-1],[-3,-2],[1,3],[2,1],[3,2]])
y_label=np.array([0,0,0,1,1,1])

#调用逻辑回归模型
a=LogisticRegression()

#用逻辑回归模型拟合构造的数据集
a=a.fit(x_features,y_label)#其拟合方程为y=w0 + w1*x1 + w2*x2

2.1.3 模型参数输出

拟合方程为y=w0 + w1x1 + w2x2,输出模型参数:

#查看其对应模型的w
print('the weight of Logistic Regression:',a.coef_)

#查看其对应模型的w0
print('the intercept(w0) of Logistic Regession:',a.intercept_) #第一遍忘记打二者间的逗号

2.1.4 数据及模型可视化

根据标签类别表示为不同颜色:

#可视化构造的数据样本点
plt.figure()
plt.scatter(x_features[:,0],x_features[:,1],c=y_label,s=50,cmap='viridis') #别的c都是颜色，为什么这里是y_label
plt.xlabel('X')  
plt.ylabel('Y')  #设置X轴标签和Y轴标签
plt.title('Dataset')
plt.show()

在这里插入图片描述

#可视化决策边界
plt.figure()
plt.scatter(x_features[:,0],x_features[:,1],c=y_label,s=50,cmap='viridis')
plt.title('Dataset')

nx,ny=200,100
x_min,x_max=plt.xlim()
y_min,y_max=plt.ylim() #设定x，y坐标轴
x_grid,y_grid=np.meshgrid(np.linspace(x_min,x_max,nx),np.linspace(y_min,y_max,ny))   #做(x_min,x_max,nx)与(y_min,y_max,ny)的笛卡尔积，生成网格点坐标矩阵(二维三维都可以)

z_proba=a.predict_proba(np.c_[x_grid.ravel(),y_grid.ravel()]) #predict Probability estimates. 对X的每条样本进行概率估计
z_proba=z_proba[:,1].reshape(x_grid.shape) #考虑正类为1，计算判为1类的概率值
plt.contour(x_grid,y_grid,z_proba,[0.5],linewidths=2.,colors='blue')#0.5 #绘制轮廓线，level的数字确定阈值

<matplotlib.contour.QuadContourSet at 0x2773ab2eb48>

在这里插入图片描述
下面可视化地对新样本进行预测:


plt.figure()
## new point 1
x_features_new1 = np.array([[0, -1]])
plt.scatter(x_features_new1[:,0],x_features_new1[:,1], s=50, cmap='viridis')
plt.annotate(s='New point 1',xy=(0,-1),xytext=(-2,0),color='blue',arrowprops=dict(arrowstyle='-|>',connectionstyle='arc3',color='red'))
"""
Axes.annotate(s, xy, *args, **kwargs)

    s：注释文本的内容
    xy：被注释的坐标点，二维元组形如(x,y)
    xytext：注释文本的坐标点，也是二维元组，默认与xy相同
    xycoords：被注释点的坐标系属性
    arrowprops：箭头的样式，dict（字典）型数据，如果该属性非空，则会在注释文本和被注释点之间画一个箭头。
    connectionstyle就是描绘箭头的样式的，例如箭头的一个弧度、防止箭头被曲线遮挡之类的
    
"""

## new point 2
x_features_new2 = np.array([[1, 2]])
plt.scatter(x_features_new2[:,0],x_features_new2[:,1], s=50, cmap='viridis')
plt.annotate(s='New point 2',xy=(1,2),xytext=(-1.5,2.5),color='red',arrowprops=dict(arrowstyle='-|>',connectionstyle='arc3',color='red'))

## 训练样本
plt.scatter(x_features[:,0],x_features[:,1], c=y_label, s=50, cmap='viridis')
plt.title('Dataset')

# 可视化决策边界(画出分界线)
plt.contour(x_grid, y_grid, z_proba, [0.5], linewidths=2., colors='blue')

plt.show()

在这里插入图片描述

2.1.5 模型预测

##在训练集和测试集上分布利用训练好的模型进行预测
y_label_new1_predict=a.predict(x_features_new1)
y_label_new2_predict=a.predict(x_features_new2)
print('The New point 1 predict class:\n',y_label_new1_predict)
print('The New point 2 predict class:\n',y_label_new2_predict)
##由于逻辑回归模型是概率预测模型（前文介绍的p = p(y=1|x,\theta)）,所有我们可以利用predict_proba函数预测其概率
y_label_new1_predict_proba=a.predict_proba(x_features_new1)
y_label_new2_predict_proba=a.predict_proba(x_features_new2)
print('The New point 1 predict Probability of each class:\n',y_label_new1_predict_proba)
print('The New point 2 predict Probability of each class:\n',y_label_new2_predict_proba)

输出结果为:
The New point 1 predict class:
[0]
The New point 2 predict class:
[1]
The New point 1 predict Probability of each class:
[[0.69567724 0.30432276]]
The New point 2 predict Probability of each class:
[[0.11983936 0.88016064]]

可以发现训练好的回归模型将X_new1预测为了类别0（判别面左下侧），X_new2预测为了类别1（判别面右上侧）。其训练得到的逻辑回归模型的概率为0.5的判别面为上图中蓝色的线。

2.2 基于鸢尾花(iris)数据集的逻辑回归

在实践的最开始，我们首先需要导入一些基础的函数库,包括：

numpy（Python进行科学计算的基础软件包）
pandas（pandas是一种快速，强大，灵活且易于使用的开源数据分析和处理工具）
matplotlib和seaborn绘图。

本次我们选择鸢花数据（iris）进行方法的尝试训练，该数据集一共包含5个变量，其中4个特征变量，1个目标分类变量。共有150个样本，目标变量为花的类别其都属于鸢尾属下的三个亚属，分别是山鸢尾 (Iris-setosa)，变色鸢尾(Iris-versicolor)和维吉尼亚鸢尾(Iris-virginica)。包含的三种鸢尾花的四个特征，分别是花萼长度(cm)、花萼宽度(cm)、花瓣长度(cm)、花瓣宽度(cm)，这些形态特征在过去被用来识别物种。

变量如下:

sepal length 花萼长度(cm)
sepal width 花萼宽度(cm)
petal length 花瓣长度(cm)
petal width 花瓣宽度(cm)
target 鸢尾的三个亚属类别,‘setosa’(0), ‘versicolor’(1), ‘virginica’(2)

2.2.1 库函数导入

##  基础函数库
import numpy as np 
import pandas as pd

## 绘图函数库
import matplotlib.pyplot as plt
import seaborn as sns

2.2.2 数据读取、载入

利用Pandas把json文件转化为csv文件(解决了以前的一个问题):

##我们利用sklearn中自带的iris数据作为数据载入，并利用Pandas转化为DataFrame格式
from sklearn.datasets import load_iris
data = load_iris() #得到数据特征
iris_target = data.target #得到数据对应的标签
iris_features = pd.DataFrame(data=data.data, columns=data.feature_names) #利用Pandas转化为DataFrame格式

2.2.3 数据信息简单查看

##利用.info()查看数据的整体信息
iris_features.info()

在这里插入图片描述

##进行简单的数据查看，我们可以利用.head()头部.tail()尾部
iris_features.head()

在这里插入图片描述

iris_features.tail()

在这里插入图片描述
其对应的类别标签为，其中0，1，2分别代表’setosa’,‘versicolor’,'virginica’三种不同花的类别，共有150个数据。

iris_target

在这里插入图片描述

##利用value_counts函数查看每个类别数量
pd.Series(iris_target).value_counts()

机器学习——逻辑回归 原理真的用心了

目录

1. Logistic原理

1.1 Sigmoid函数

1.2 前提假设

1.3 构造似然函数或损失函数

1.4 参数估计

1.5 进行预测并计算精度

2. 代码实现

2.1 简单案例

2.1.1 库函数导入

2.1.2 模型训练

2.1.3 模型参数输出

2.1.4 数据及模型可视化

2.1.5 模型预测

2.2 基于鸢尾花(iris)数据集的逻辑回归

2.2.1 库函数导入

2.2.2 数据读取、载入

2.2.3 数据信息简单查看

机器学习——逻辑回归原理真的用心了