误差、梯度与优化：神经网络损失函数的数学本质

原创已于 2025-07-02 21:32:44 修改 · 1k 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#神经网络 #人工智能 #深度学习

于 2025-07-02 21:26:31 首次发布

神经网络的数学之美专栏收录该内容

4 篇文章

订阅专栏

神经网络损失函数的数学本质

一、损失函数的定义与作用
二、常见损失函数的数学形式
- 2.1 均方误差损失函数
- 2.2 交叉熵损失函数
三、损失函数的优化目标

在神经网络的世界里，损失函数是衡量模型性能的核心工具。它不仅帮助我们评估模型的预测效果，还指导模型的优化方向。

损失函数的设计和选择对神经网络的训练和性能有着深远的影响。

今天，就让我们一起深入探讨损失函数的数学本质，了解它是如何成为神经网络优化的关键。

一、损失函数的定义与作用

损失函数（Loss Function），也被称为代价函数（Cost Function），它是一个是衡量神经网络模型预测值与真实值之间差异的数学函数。

其主要作用是量化模型的误差，并通过计算梯度为模型优化提供方向。在训练过程中，神经网络的目标是通过调整权重和偏置，最小化损失函数的值。

图1. 损失函数示意图

简单来说，它告诉我们模型的预测有多“好”或者有多“坏”。损失函数的值越小，说明模型的预测越接近真实值，模型的性能就越好。

从数学角度看，损失函数是一个关于模型参数的函数。假设我们有一个神经网络模型 $f(\mathbf{x}; \theta)$ ，其中 $\mathbf{x}$ 是输入数据， $\theta$ 是模型的参数（权重和偏置）。

损失函数 $\mathcal{L}(\theta)$ 可以表示为：

$\mathcal{L}(\theta) = \frac{1}{N}\sum_{i=1}^{N} \ell(f(\mathbf{x}_i; \theta), y_i)$

其中， $N$ 是训练样本的数量， $\mathbf{x}_i$ 是第 $i$ 个输入样本， $y_i$ 是对应的标签， $\ell$ 是单个样本的损失函数。

二、常见损失函数的数学形式

接下来，将详细介绍两种常见的损失函数：均方误差损失函数（Mean Squared Error, MSE）和交叉熵损失函数（Cross-Entropy Loss），并探讨它们的数学形式和原理。

2.1 均方误差损失函数

均方误差损失函数（Mean Squared Error, MSE）是最常用的损失函数之一，它在回归任务中有着广泛的应用。

🕵️ 其数学形式：

$\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2$

其中， $n$ 是样本数量， $y_i$ 是第 $i$ 个样本的真实值， $\hat{y}_i$ 是第 $i$ 个样本的预测值。

MSE 的计算方法是先计算每个样本的真实值与预测值之间的差值的平方，然后对所有样本的平方差求平均值。

MSE 的优点是计算简单，对误差的惩罚力度较大，能够有效地促使模型减少大误差。

然而，它也有一个缺点，那就是对异常值比较敏感。因为平方操作会放大误差，所以当数据中存在异常值时，MSE 可能会受到较大的影响，导致模型的优化方向偏离正常轨道。

💡 其推导过程：

均方误差损失函数的推导相对简单。假设我们有一个线性回归模型，其预测值为 $\hat{y} = w^T x + b$ ，其中 $w$ 是权重， $b$ 是偏置， $x$ 是输入特征。

我们希望找到最优的 $w$ 和 $b$ ，使得预测值与真实值之间的误差最小。为了衡量误差，我们定义了均方误差损失函数：

$\hat{y}) = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2$

为了找到最优的 $w$ 和 $b$ ，我们需要对损失函数进行求导，并令导数为零。通过求导，我们可以得到：

$\frac{\partial L}{\partial w} = \frac{2}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)(-x_i)$

$\frac{\partial L}{\partial b} = \frac{2}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)(-1)$

将导数设为零，即可得到最优的 $w$ 和 $b$ 的值。通过这种方法，我们就可以利用均方误差损失函数来优化线性回归模型。

2.2 交叉熵损失函数

交叉熵损失函数（Cross-Entropy Loss）是分类问题中常用的损失函数。它通过计算预测概率分布与真实概率分布之间的交叉熵来衡量误差。

🕵️ 其数学形式：

$\text{Cross-Entropy} = -\frac{1}{n} \sum_{i=1}^{n} [y_i \log(\hat{y}_i) + (1 - y_i) \log(1 - \hat{y}_i)]$

其中， $n$ 是样本数量， $y_i$ 是第 $i$ 个样本的真实标签（0 或 1）， $\hat{y}_i$ 是第 $i$ 个样本的预测概率。

交叉熵损失函数的优点是对概率分布的差异非常敏感，能够有效地衡量预测概率分布与真实概率分布之间的差异。

它适用于多分类问题，例如图像分类、文本分类等。

🤖 其数学原理：

交叉熵损失函数的数学原理基于信息论中的交叉熵概念。交叉熵是两个概率分布之间的距离度量，它表示从一个概率分布到另一个概率分布的平均信息量。

对于二分类问题，真实概率分布是 $P(y_i = 1) = y_i$ 和 $P(y_i = 0) = 1 - y_i$ ，预测概率分布是 $P(y_i = 1) = \hat{y}_i$ 和 $P(y_i = 0) = 1 - \hat{y}_i$ 。

交叉熵损失函数计算的是这两个概率分布之间的交叉熵：

$\text{Cross-Entropy} = -\sum_{i=1}^{n} [y_i \log(\hat{y}_i) + (1 - y_i) \log(1 - \hat{y}_i)]$

我们取平均值，得到交叉熵损失函数：

$\text{Cross-Entropy} = -\frac{1}{n} \sum_{i=1}^{n} [y_i \log(\hat{y}_i) + (1 - y_i) \log(1 - \hat{y}_i)]$

在分类问题中，我们希望模型的预测概率分布尽可能接近真实概率分布，因此我们使用交叉熵损失函数来衡量这种差异。

三、损失函数的优化目标

在神经网络的训练过程中，我们的目标是最小化损失函数。通过最小化损失函数，我们可以找到最优的模型参数，使得模型的预测尽可能接近真实值。

从数学角度来看，优化目标可以表示为：

$\min_{\theta} \mathcal{L}(\hat{y}(\theta), y)$

其中， $\theta$ 是模型的参数， $\hat{y}(\theta)$ 是模型的预测值， $y$ 是真实值。

为了实现这一目标，我们通常使用梯度下降法（Gradient Descent）或其变体（如随机梯度下降、Adam等）。

图2. 梯度下降法的核心思想

梯度下降法的核心思想是通过计算损失函数对模型参数的梯度，逐步调整模型参数，从而最小化损失函数。

具体来说，模型参数的更新公式为：

$\theta_{\text{new}} \leftarrow \theta_{\text{old}} - \alpha \nabla_{\theta} \mathcal{L}(\hat{y}(\theta), y)$

其中， $\alpha$ 是学习率， $\nabla_{\theta} \mathcal{L}$ 是损失函数对模型参数的梯度。

👇👇👇 损失函数的凸性与非凸性

损失函数的凸性是指其形状是否为凸函数。凸函数是指在定义域内任意两点之间的连线都在函数图像的上方。

凸函数的一个重要性质是其局部最小值也是全局最小值。因此，如果损失函数是凸函数，优化过程会相对简单，因为不存在局部最小值陷阱。

图3. 凸函数（左图）和凹函数（右图）的函数图像

然而，在神经网络中，损失函数通常是非凸的。非凸函数是指其形状不是凸函数，可能存在多个局部最小值。

这使得优化过程更加复杂，因为优化算法可能会陷入局部最小值，而不是全局最小值。

图4. 随机梯度下降等优化算法及可视化

为了应对非凸损失函数的优化问题，研究人员开发了多种优化算法，如随机梯度下降（SGD）、动量优化（Momentum）、Adam 等。

结语

损失函数是神经网络的核心组成部分，它通过量化模型预测值与真实值之间的差异，为模型的优化提供了明确的方向。

通过选择合适的损失函数，我们可以有效地衡量模型的性能，并通过优化损失函数来提高模型的性能。

注：本文中未声明的图片均来源于互联网