【链式法则：从数学基础到深度学习反向传播】

最新推荐文章于 2025-09-11 15:32:07 发布

Git码农学堂

最新推荐文章于 2025-09-11 15:32:07 发布

阅读量655

点赞数 7

CC 4.0 BY-SA版权

分类专栏： CV基础（免费）文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/weixin_45037357/article/details/151577236

CV基础（免费）专栏收录该内容

24 篇文章

订阅专栏

#『AI先锋杯·14天征文挑战第5期』#

标签：链式法则, 反向传播, 深度学习, PyTorch, 数学基础

大家好。今天我们来聊聊数学中的“链式法则”（Chain Rule），这是一个让很多初学者“懵逼”的概念，尤其在深度学习中，它是反向传播（backpropagation）的核心。如果你看到loss.backward()就头大，别担心，这篇文章会从零基础一步步讲清楚。

这篇文章适合数学或深度学习新手，老鸟也可以复习。

引言：为什么链式法则这么重要？

在深度学习中，模型是层层嵌套的函数（比如神经网络的层级）。要训练模型，我们需要计算损失函数对每个参数的导数，来知道怎么调整它们。这时候，链式法则就登场了——它帮我们处理“复合函数”的求导。

简单说：如果你有一个函数套函数（f(g(x))），链式法则告诉你怎么求整体导数，而不用展开成巨长的表达式。在反向传播中，它让PyTorch等框架高效计算梯度，避免手动求导的噩梦。

如果你学过高中数学，这其实就是“复合函数求导”。但在AI中，它被放大到成千上万的参数上。别慌，咱们一步步来。

1. 链式法则的基础：单变量版本

核心公式：对于复合函数 ( y = f(g(x)) )，它的导数是：
$\frac{dy}{dx} = \frac{dy}{dg} \cdot \frac{dg}{dx} ]$
翻译成白话：整体变化率 = “外层对内层”的变化率 × “内层对输入”的变化率。

为什么这样？ 想象一下，x 变一点，g(x) 变一点，然后f 再根据g的变化变一点。链式就是把这些“小变化”乘起来。

简单例子：假设 ( y = (x^2 + 1)^3 )。

这里，内层 g(x) = x² + 1，外层 f(g) = g³。
求 dy/dx：
- dg/dx = 2x
- df/dg = 3g² = 3(x² + 1)²
- 所以 dy/dx = 3(x² + 1)² * 2x = 6x(x² + 1)²

手动展开 y = (x² + 1)³ = x^6 + 3x^4 + 3x² + 1，再求导是 6x^5 + 12x^3 + 6x，也一样。但链式更简单，尤其是函数很复杂时。

小测试：试试 y = sin(2x)。答案：dy/dx = cos(2x) * 2。

2. 多变量扩展：神经网络的现实场景

现实中，神经网络不是单变量，而是多层、多参数。链式法则扩展到偏导数（partial derivatives）。

多层复合：假设 y = f(u(v(w(x))))，那么：
$\frac{dy}{dx} = \frac{dy}{du} \cdot \frac{du}{dv} \cdot \frac{dv}{dw} \cdot \frac{dw}{dx} ]$
就像一条链，从输出端“反向”乘回去。

向量版本（深度学习常用）：如果参数是向量，梯度是雅可比矩阵的乘积。但别怕，框架自动处理。

3. 链式法则在深度学习中的应用：反向传播

现在进入重头戏！在神经网络中，反向传播（backprop）就是链式法则的递归应用。

神经网络简化：一个简单网络：输入 x，经过权重 w1 到隐藏层 h = w1 * x + b1，再经过 w2 到输出 y = w2 * h + b2。损失 L = (y - target)^2。
前向传播：从 x 到 y 计算。
反向传播：从 L 开始，反向计算每个权重的梯度 dL/dw。

用链式：

dL/dy = 2(y - target) # 损失对输出的导数
dL/dw2 = dL/dy * dy/dw2 = dL/dy * h # 因为 y = w2 * h + b2，dy/dw2 = h
dL/dh = dL/dy * dy/dh = dL/dy * w2
dL/dw1 = dL/dh * dh/dw1 = dL/dh * x # 因为 h = w1 * x + b1，dh/dw1 = x

看到没？从后往前乘，就是链式法则！PyTorch的loss.backward() 就是在做这个：构建计算图，然后递归应用链式求导。

为什么高效？ 手动求导需要展开所有层（指数级复杂），链式只需O(n)时间（n是层数）。

4. 代码示例：用PyTorch看链式法则在行动

咱们用PyTorch模拟一个简单网络，观察梯度计算。

import torch

# 定义变量（requires_grad=True 启用自动微分）
x = torch.tensor(2.0)
w1 = torch.tensor(3.0, requires_grad=True)
b1 = torch.tensor(1.0, requires_grad=True)
w2 = torch.tensor(4.0, requires_grad=True)
b2 = torch.tensor(1.0, requires_grad=True)
target = torch.tensor(20.0)

# 前向传播
h = w1 * x + b1  # 内层
y = w2 * h + b2  # 外层
loss = (y - target) ** 2  # 损失

# 反向传播：自动应用链式法则
loss.backward()

# 查看梯度
print("dL/dw1:", w1.grad)  # 应该接近 (2*(y-target)*w2*x)
print("dL/dw2:", w2.grad)  # 应该接近 (2*(y-target)*h)