综述
“子非鱼,焉知鱼之乐”
本文采用编译器:jupyter
逻辑回归方法是从线性回归方法发展过来的,通常解决的是分类问题,读者或许有这样一个疑问:既然是回归算法又么解决分类问题的呢?
道理其实很简单,在我们求出线性回归系数a,b之后,对于每一个输入的x值,模型都可以输出对应的y值,如果把输出值y限制在0到1的范围内,那么这个y就非常的像一个概率p,我们只用规定概率的不同取值范围对应不同的标记值,就可以把一个回归问题转化成分类问题。
这个转化过程就是介绍的重点,如图。
在回归问题中,输出的y取值范围为 负无穷到正无穷
回归问题要求输出结果值域为[0, 1],故做如下变换:
定义Sigmoid函数:
01 Sigmoid函数
import numpy as np
import matplotlib.pyplot as plt
def sigmoid(t):
return 1 / (1 + np.exp(-t))
x = np.linspace(-10, 10, 500)
y = sigmoid(x)
plt.plot(x, y)
plt.show()
由上面的分析可得:
于是逻辑回归问题就可以转化成:对于给定的样本数据集X,y,找到参数使得可以最大程度获得样本数据集X对应的分类输出y
首先还是思考如何表示损失的函数:
没有公式解,只能用梯度下降法求解,过程如下(可跳过直接查看结果):
前半部分:
后半部分:
02 实现逻辑回归
import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
iris = datasets.load_iris()
X = iris.data
y = iris.target
# 逻辑回归解决的是二分类问题,所以只取两个类别
X = X[y<2, :2]
y = y[y<2]
X.shape
# Out[8]:
# (100, 2)
y.shape
# Out[9]:
# (100,)
plt.scatter(X[y==0,0],X[y==0,1],color='red')
plt.scatter(X[y==1,0],X[y==1,1],color='blue')
plt.show()