Logistic回归的基本原理(简单介绍)

本文介绍了Logistic回归(LR回归),它是一种分类器。先阐述了sigmoid函数可将实数域元素映射到(0, 1)区间,对应概率取值。接着说明LR模型可作为二分类器。还给出数据集下LR模型参数w、b的概率解释,通过极大似然估计得到似然函数,用梯度上升法等优化求解。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录
  • LR回归
  • 概率解释
LR回归

  Logistic 回归是一种分类器,功能与贝叶斯分类器,SVM等分类器一致,是用于分类的,而不是进行数据回归的。下面简单介绍下整个LR模型的基本原理,主要有两个核心问题,1是LR如何分类,2是如何得到模型内相应的参数。
  首先介绍sigmoid函数,sigmoid函数可以把任意实数域内的元素映射到(0,1)(0,1)(01)之间。表达式如下:

y(x)=11+e−x(1)y(x)=\frac{1}{1+e^{-x}}\tag{1}y(x)=1+ex1(1)

  图像如下:
在这里插入图片描述
  值得注意的是,(0,1)(0,1)(0,1)这个区间正好对应了概率的取值,因此sigmoid函数的函数值在某些情况下就可以看成概率。

  LR回归的模型很简单,表达式如下:

yi=11+e−wTxi−by_i=\frac{1}{1+e^{-w^Tx_i-b}}yi=1+ewTxib1

  首先wTxi+bw^Tx_i+bwTxi+b是一个线性分类器(图像表达为一个超平面),为什么呢?考虑最简单的二维情况:

  当数据xix_ixi落在直线上时有wTxi+b=0w^Tx_i+b=0wTxi+b=0
  当数据xix_ixi落在直线上方时有wTxi+b>0w^Tx_i+b>0wTxi+b>0
  当数据xix_ixi落在直线下方时有wTxi+b<0w^Tx_i+b<0wTxi+b<0

  其次yi=11+e−wTxi−by_i=\frac{1}{1+e^{-w^Tx_i-b}}yi=1+ewTxib1也是一个分类器,为什么呢?也考虑二维最简单的情况:
  当数据xix_ixi落在直线上时有yi=11+e−wTxi−b=0.5y_i=\frac{1}{1+e^{-w^Tx_i-b}}=0.5yi=1+ewTxib1=0.5
  当数据xix_ixi落在直线上方时有yi=11+e−wTxi−b∈(0.5,1)y_i=\frac{1}{1+e^{-w^Tx_i-b}}\in(0.5,1)yi=1+ewTxib1(0.5,1)
  当数据xix_ixi落在直线下方时有yi=11+e−wTxi−b∈(0,0.5)y_i=\frac{1}{1+e^{-w^Tx_i-b}}\in(0,0.5)yi=1+ewTxib1(0,0.5)

因此,LR模型可作为二分类的分类器。

概率解释

  已知有数据集X={X1,X2,...,XN}X=\{X_1,X_2,...,X_N\}X={X1,X2,...,XN},对应的二分类标签为{0,1}\{0,1\}{0,1},要得到LR模型中的w,bw,bw,b,肯定有一个训练的过程,而且是有监督的训练过程。
  对于数据XiX_iXi,若划分类别为yi(yi∈{0,1})y_i(y_i\in\{0,1\})yi(yi{0,1}),那么相应的概率如下:

p(yi=0∣Xi,w,b)=11+e−wTxi−bp(y_i=0|X_i,w,b)=\frac{1}{1+e^{-w^Tx_i-b}}p(yi=0Xi,w,b)=1+ewTxib1

p(yi=1∣Xi,w,b)=1−11+e−wTxi−b=e−wTxi−b1+e−wTxi−bp(y_i=1|X_i,w,b)=1-\frac{1}{1+e^{-w^Tx_i-b}}=\frac{e^{-w^Tx_i-b}}{1+e^{-w^Tx_i-b}}p(yi=1Xi,w,b)=11+ewTxib1=1+ewTxibewTxib

  记h(Xi,w,b)=11+e−wTxi−bh(X_i,w,b)=\frac{1}{1+e^{-w^Tx_i-b}}h(Xi,w,b)=1+ewTxib1,因此yyy的概率分布为:

p(yi∣Xi,w,b)=h(Xi,w,b)y(1−h(Xi,w,b))1−y(2)p(y_i|X_i,w,b)=h(X_i,w,b)^y(1-h(X_i,w,b))^{1-y}\tag{2}p(yiXi,w,b)=h(Xi,w,b)y(1h(Xi,w,b))1y(2)

  为什么是以上这个形式,可以考虑以下概率论中(0,1)(0,1)(0,1)分布的知识。

  有了(2)式,如何得到w,bw,bw,b?,由(2)(2)(2)式可知,这属于参数估计问题,最直接的办法是极大似然,似然函数如下:

L(yi∣Xi,w,b)=∏i=1Nh(Xi,w,b)iy(1−h(Xi,w,b))1−yiL(y_i|X_i,w,b)=\prod_{i=1}^Nh(X_i,w,b)^y_i(1-h(X_i,w,b))^{1-y_i}L(yiXi,w,b)=i=1Nh(Xi,w,b)iy(1h(Xi,w,b))1yi

  取对数得:
J(yi∣Xi,w,b)=∑i=1N[yih(Xi,w,b)+(1−yi)(1−h(Xi,w,b))]J(y_i|X_i,w,b)=\sum_{i=1}^N[y_ih(X_i,w,b)+(1-y_i)(1-h(X_i,w,b))]J(yiXi,w,b)=i=1N[yih(Xi,w,b)+(1yi)(1h(Xi,w,b))]

  要得到最优的w,bw,bw,b只需优化以下目标函数:

max[J(yi∣Xi,w,b)]max[J(y_i|X_i,w,b)]max[J(yiXi,w,b)]

  其中XiX_iXi为提取出来的特征向量,yiy_iyi为标签,为了求解这个优化问题,可以使用梯度上升法等优化方法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值