【机器学习笔记】——逻辑回归 & 交叉熵

最新推荐文章于 2025-03-29 19:34:25 发布

孙悟充

最新推荐文章于 2025-03-29 19:34:25 发布

阅读量2k

点赞数 9

CC 4.0 BY-SA版权

分类专栏：机器学习 python 文章标签：机器学习逻辑回归交叉熵梯度下降正则化

本文链接：https://blog.csdn.net/huanyingzhizai/article/details/89929570

本文详细介绍了逻辑回归模型，包括模型的推导、梯度下降公式、正则化以及交叉熵的概念。通过实例展示了模型的训练过程，包括代价函数的构建、梯度下降法的运用，以及正则化在防止过拟合中的作用。此外，还探讨了多分类问题，并提供了编程练习，涵盖了逻辑回归模型的实现和优化。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

我们将因变量(dependant variable)可能属于的两个类分别称为负向类（negative class）和正向类（positive class），因变量 $\in \{0, \ +1\}$ ，其中0表示负向类，1表示正向类。为了使模型的输出在0和1之间，需要引进一个新的模型，即逻辑回归模型。

模型假设：
$h_\theta (x) = g(\theta^T x)$

其中 $\in \mathbf{R}^n$ 是输入， $\frac{1}{1 + e^{-z}}$ 是Sigmoid函数，逻辑函数的一种，函数图像如下：
在这里插入图片描述
因此模型可以表示为
$h_\theta (x) = \frac{1}{1 + e^{-\theta^T x}}$

$h_\theta (X)$ 给出了给定输入 $x$ 时，结果为1的概率， $h_\theta (x) = P(Y = 1 | x, \theta)$ ，即当 $h_\theta (x) \ge 0.5$ 时预测 $Y = 1$ ，当 $h_\theta (x) \lt 0.5$ 时预测 $Y = 0$ ，参照Sigmoid函数，即当 $\theta^T x \ge 0$ 时预测 $Y = 1$ ，当 $\theta^T x \lt 0$ 时预测 $Y = 0$ 。

这时逻辑回归模型为：
$\frac{1}{1 + e^{-\theta^T x}}$

$\frac{e^{-\theta^T x}}{1 + e^{-\theta^T x}}$

于是我们只需要得到参数 $\theta$ 就可以确定我们的模型。

1.2 模型的推导1——直接使用极大似然

对于给定的训练集 $\{ (x_1, y_1),(x_1, y_1),\cdots ,(x_N, y_N) \}$ ，其中 $x_i = (0, x_i^{(1)}, x_i^{(2)}, \cdots , x_i^{(n)}) \in \mathbf{R}^{n + 1}$ ， $y_i \in \{0, \ +1\}$ ，可以使用极大似然估计法估计参数模型（从最优化的观点看，似然函数是光滑的凸函数，因此多种最优化的方法都适用，能保证找到全局最优解），从而得到逻辑回归模型。

设：
$\theta) = h_{\theta} (x), \quad P(Y = 0 | x, \theta) = 1 - h_{\theta} (x)$

其中 $\theta = (\theta_0, \theta_1, \theta_2, \cdots, \theta_n)$ 。

似然函数为：
$L(\theta) = \prod_{i = 1}^N h_{\theta} (x)^{y_i}(1 - h_{\theta} (x))^{1 - y_i}$

对数似然函数为：
$\begin{aligned} l(\theta) & = \sum_{i = 1}^N y_i\log h_{\theta} (x) + (1 - y_i) \log (1 - h_{\theta} (x)) \\ & = \sum_{i = 1}^N y_i\log \frac{1}{1 + e^{-\theta^T x}} + (1 - y_i) \log \frac{e^{-\theta^T x}}{1 + e^{-\theta^T x}} \\ & = \sum_{i = 1}^N (y_i - 1) \theta^T x - \log (1 + e^{-\theta^T x}) \end{aligned}$
对似然函数求极大值，得到 $\theta$ 的估计，对 $\theta$ 求导：
$\frac{\partial l(\theta)}{\partial \theta_j} = \sum_{i = 1}^N (y_i - \frac{1}{1 + e^{-\theta^T x}}) x_i^{(j)}$

假设得到的 $\theta$ 的极大似然估计值为 $\hat{\theta}$ ，那么学到的逻辑回归模型就是：
$\frac{1}{1 + e^{-\hat{\theta}^T x}}$

$\frac{e^{-\hat{\theta}^T x}}{1 + e^{-\hat{\theta}^T x}}$

求似然函数的最大值，我们可以梯度上升（梯度的解释见第2节）的方法：
$\theta_j = \theta_j + \alpha \frac{\partial l(\theta)}{\partial \theta_j} = \theta_j + \alpha \sum_{i = 1}^N (y_i - \frac{1}{1 + e^{-\theta^T x}}) x_i^{(j)}$

其中 $\alpha$ 为学习率，我们也可以用梯度下降的方法，但是需要对似然函数进行适当处理，令 $J(\theta) = - \frac{1}{N}l(\theta)$ ，于是有：
$J(\theta) = -\frac{1}{N} \sum_{i = 1}^N [y_i\log h_{\theta} (x) + (1 - y_i) \log (1 - h_{\theta} (x))]$

该式即为交叉熵损失函数或者交叉熵公式。

对 $\theta_j$ 求偏导：

$\begin{aligned} \frac{\partial J(\theta)}{\partial \theta_j} & = \frac{1}{N} \sum_{i = 1}^{N} (h_{\theta}(x_i) - y_i)x_i^{(j)} \\ & = - \frac{1}{N} \sum_{i = 1}^N (y_i - \frac{1}{1 + e^{-\theta^T x}}) x_i^{(j)} \end{aligned}$

这样就可以用梯度下降发逼近参数 $\theta$ ：
$\theta_j = \theta_j - \alpha \frac{\partial J(\theta)}{\partial \theta_j} = \theta_j - \alpha \frac{1}{N} \sum_{i = 1}^N (y_i - \frac{1}{1 + e^{-\theta^T x}}) x_i^{(j)}$