一、逻辑回归分类的思想
逻辑回归(Logistic Regression)是一种用于解决分类问题的统计模型,适用于二分类问题(判别两个类别中的哪一个)或多分类问题(判别多个类别中的哪一个)。与线性回归不同,逻辑回归输出的是一个概率值,用于描述观测数据属于不同类别的可能性。
回归与分类的本质区别不在于算法本身,而在于所要解决的问题上。回归方法是一种对连续值的随机变量进行建模的方法,例如房价预测、股票走势等等;分类方法是对离散型随机变量进行建模的方法,例如鸢尾花分类等。
例如:连续的0-100分的考试成绩,可以转换为2个量:
第1类:0-59,表示不及格;
第2类:60-100分,表示及格。
这样就实现了回归问题向分类问题的转换。
那么如何实现回归问题向分类问题的转换呢?这里我们会用到了一个叫做Sigmoid的函数。
逻辑回归采用这种方式形成了从线性回归向分类问题的跨越,但是其类别边界(也叫做阈值)的划分不像考试成绩那样,而是低于某个阈值就归为0类,高于某个阈值就归为1类。逻辑回归使用了逻辑函数和概率原则,逻辑函数通常采用Sigmoid函数,将输出变量的值域压缩在(0,1)区间内。
逻辑回归分类过程总结:
【1】二分类问题描述
分类标签Y {0,1},
特征变量X{x1,x2,……,xn}
如何根据特征X来判别它应该是属于哪个类别Y(0或者1)?我们希望找一个模型,即一个关于X的函数来得出分类结果(0或1)
【2】找一个线性模型,经过Sigmoid函数变换
二、W的参数估计
1、极大似然估计
似然是指在已知观测结果的情况下,对模型参数的可能取值进行量化。似然一般用于根据已有数据推断模型参数的值,是通过观测数据来判断参数的可能性。例如,假设我们有一组抛硬币的观测数据,记录了10次抛硬币出现正面的次数为8次。我们可以根据这个观测结果,计算不同假设参数(如硬币出现正面的概率为0.5或0.6等)的似然值,通过比较不同假设的似然值,来判断哪个参数更符合观测数据。
示例-1:似然函数的意义
有两个人下象棋,假如这道这两个人的实力相当,如果他们下10盘棋,两个人输赢的概率都在50%;假设我们不知道两个人的实力,如果他们下10盘棋,若每个人都赢了5盘棋的话,那么我们可以判断这两个人每次下棋输赢的概率都在50%,即实力相当,就是似然的含义。
示例-2:极大似然估计的意义
通俗的讲概率最大的事件,最可能发生。例如一家超市被盗,现场留下的证据表明,一个惯犯和一个好人都有嫌疑,那么谁最有可能是盗窃者?一般人会猜测是惯犯而不是好人,虽然好人也有可能,但是惯犯偷盗的可能性更大。
2、二项分布
二项分布是概率论中常见的离散概率分布,描述了在一系列独立的伯努利试验中,成功事件发生的次数的概率分布在二项分布中,成功的概率记为p,失败的概率记为1-p。二项分布的特点包括:
【1】每次试验有两种可能结果,成功和失败。
【2】每次试验之间是相互独立的。
【3】每次试验中成功的概率保持不变。
【4】试验的总次数固定为n次。
假设我们有个样本点为(Xi,Yi),那么:
假设我们的样本点为{(X1,Y1) , (X2,Y2) , …(Xn,Yn)},那么我们的似然函数为:
三、梯度下降法求解参数W
梯度下降法是一种常用的优化算法,用于最小化一个函数的值。它通过不断沿着函数梯度的反方向更新参数,以达到找到函数的最小值的目的。梯度下降法的基本思想是沿着函数的梯度方向更新参数,以减少函数值。具体步骤如下: