机器学习-逻辑回归模型公式推导_逻辑回归的推导-CSDN博客

本文链接：https://blog.csdn.net/github_33934628/article/details/79690418

LR介绍

Logistic Regression 是一种非线性的回归模型，同时也可以使用逻辑回归模型来作分类任务。

Logistic Regression回归模型使用的Sigmoid函数作为假设模型。

h θ (x) = 1 1 + e - x

$h_{\theta}(x) = \frac{1}{1+e^{-x}}$
其中

x=∑niθifi,i=1,2...n x = ∑ i n θ i f i , i = 1 , 2 . . . n $x = \sum_{i}^{n} \theta_{i}f_{i} , i=1,2 ... n$

n n $n$ 表示

x

$x$ 这个样本共有

n n $n$ 维的特征，

f_{i}

$f_i$ 表示

x x $x$ 这个样本的第

i

$i$ 个特征，

θi θ i $\theta_i$ 表示

x x $x$ 这个样本第

i

$i$ 个特征的权重。而逻辑回归模型的训练过程就是学习这个

θ θ $\theta$ ，训练完成后的逻辑回归模型就可以用来给样本分类。
Sigmoid函数是长成这样的。
这里写图片描述

思考题1：为什么逻辑回归的假设模型使用的是Sigmoid函数？

公式推导：

由于逻辑回归服从伯努利分布。所以对于二分类问题来说。
$h_{\theta}(x)$ 表示类别为1的情况。那么类别为0的情况就是 $1- h_{\theta}(x)$
那么输入 $x$ 判断类别为1的概率为 $P(y=1|x;\theta) = h_\theta(x)$ ,判断类别为0的概率为 $P(y=0|x;\theta) = 1 - h_\theta(x)$
综合在一起就是

$ P (y | x; θ) = h θ (x) y + (1 - h θ (x)) 1 - y

$$P(y|x;\theta) = h_\theta(x)^y + (1 - h_\theta(x))^{1-y}$
接下来为了能够使用梯度下降的方法来training

θ θ $\theta$ 这个值，所以需要设置损失函数。
通常分类问题的损失函数是误差平方和(MSE)但是，我们会发现这时候的代价函数是非凸的，也就是函数图像中会出现许多的局部最小值，导致梯度下降法极其容易得到局部最小值。
如下图所示：
这里写图片描述

为了能够得到一个凸函数，所以需要修改loss function来获得一个优化的凸函数。
Loss function

L o s s (h θ (x), y i) = l o g (P (y i | x; θ)) = - [l o g (h θ (x)) \cdot y i + l o g (1 - h θ (x)) \cdot (1 - y i)]

$Loss(h_\theta(x),y_i) = log(P(y_i|x;\theta)) = -[log(h_\theta(x))\cdot y_i + log(1 - h_\theta(x))\cdot (1 - y_i)]$
而函数整体的损失就是(共有m个样本参与训练)

J (θ) = - 1 m \sum i m [l o g (h θ (x)) \cdot y i + l o g (1 - h θ (x)) \cdot (1 - y i)]

$J(\theta) = -\frac{1}{m}\sum_{i}^{m}[log(h_\theta(x))\cdot y_i + log(1 - h_\theta(x))\cdot (1 - y_i)]$

LR的梯度下降公式推导

由于新设置的Loss function是非凸的，所以我们可以使用梯度下降发的方法来求出当Loss funciton最小时的 $\theta$ 向量。梯度下降法的迭代公式是

θ j = θ j - α \partial \partial θ J (θ)

$\theta_j = \theta_j - \alpha \frac{\partial}{\partial \theta}J(\theta)$
其中

α α $\alpha$ 是learning rate学习率。

接下来是公式推导：

$- \frac{1}{m} \frac{\partial}{\partial \theta}[log(h)\cdot y+ log(1 - h)\cdot (1 - y)]$
$= - \frac{1}{m}[\frac{1}{h}\cdot h'\cdot y+ \frac{1}{(1 - h)}\cdot(-h')\cdot(1 - y)]$
由于 $h_{\theta}(x) = \frac{1}{1+e^{-\theta^T X}}$ ,所以 $h' = -h^2\cdot e^{-\theta^T X}\cdot (-X),将h'代入$
$= - \frac{1}{m}[\frac{1}{h}\cdot (h^2\cdot e^{-\theta^T X}\cdot X )\cdot y+ \frac{1}{(1 - h)}\cdot( h^2\cdot e^{-\theta^T X}\cdot (-X))\cdot(1 - y)]$
又由于 $e^{-\theta^T X} = \frac{1}{h} - 1 = \frac{1-h}{h}$ ，代入可得
$= - \frac{1}{m}[\cdot (h\cdot \frac{1-h}{h}\cdot X )\cdot y+ \frac{1}{(1 - h)}\cdot( h^2\cdot \frac{1-h}{h}\cdot (-X))\cdot(1 - y)]$
$= - \frac{1}{m}[\frac{1}{h}\cdot (1-h)\cdot X \cdot y- h\cdot X\cdot(1 - y)]$
$= - \frac{1}{m}(y-h)X$
$= \frac{1}{m}(h-y)X$
$= \sum^{m}_{i=1}(h_\theta (x^{(i)}) -y^{(i)})x^{(i)}_j$