高级神经网络中的零和博弈与生成对抗网络详解
立即解锁
发布时间: 2025-09-09 00:26:33 阅读量: 10 订阅数: 19 AIGC 


深度学习实战:TensorFlow数学解析
### 高级神经网络中的零和博弈与生成对抗网络详解
#### 1. 零和博弈基础
在博弈论里,零和博弈是一种数学模型,在这种情境中,每个参与者的收益或损失都会被其他参与者的损失或收益所完全抵消,整个参与者群体的净收益或净损失为零。以玩家A和玩家B的零和博弈为例,这种博弈可以用收益矩阵来表示。
收益矩阵的每个单元格代表玩家A在与玩家B的各种行动组合下的博弈收益。由于是零和博弈,玩家B的收益就是玩家A收益的负值。
若玩家A采用极大极小策略,会选择每行最小值中的最大值。例如,从{-2, -10, 6}中选择最大值6,对应策略L3,此时玩家B的行动是M2。若玩家A采用极小极大策略,其收益是每列最大值中的最小值,即{8, 6, 10}中的最小值6,同样对应策略L3和玩家B的行动M2。
玩家B的极大极小收益是其每次行动最小值中的最大值,即 -(-8, -6, -12)中的最大值 -6,对应行动M2和玩家A的策略L3。玩家B的极小极大收益是玩家A每次行动下玩家B可能的最大值中的最小值,同样是 -6。
从这个零和博弈中可以得出以下结论:
- 无论玩家A和玩家B采用极大极小策略还是极小极大策略,最终玩家A会选择策略L3,玩家B会选择行动M2,玩家A的收益为6,玩家B的收益为 -6。而且玩家的极小极大值和极大极小值与他们采用极小极大策略时的实际收益值相吻合。
- 这意味着在零和博弈中,一个玩家的极小极大策略能得出两个玩家的实际策略。若考虑玩家A的极小极大策略,就能确定两个玩家的行动。若玩家A的收益效用为U(S1, S2),通过应用玩家A或B的极小极大策略就能找出玩家A和玩家B的行动S1和S2。
#### 2. 极小极大与鞍点
对于涉及玩家A和玩家B的零和极小极大问题,玩家A的收益U(x, y)可以表示为:$\hat{U} = \min_y \max_x U(x, y)$,其中x表示玩家A的行动,y表示玩家B的行动。
对应$\hat{U}$的x和y值分别是玩家A和玩家B的均衡策略。在零和两人博弈中,极小极大和极大极小策略会产生相同的结果,只要玩家坚持这两种策略之一,就不会改变行动。而且,由于极小极大值等于极大极小值,定义它们的顺序并不重要。
在零和博弈中,玩家A和玩家B独立选择针对对方每个策略的最佳策略时,会发现有一种策略组合会重叠,这就是两个玩家的最佳策略,等同于他们的极小极大策略,也是该博弈的纳什均衡。
之前为了便于用收益矩阵解释,策略是离散的,但策略也可以是连续值。在生成对抗网络(GAN)中,策略就是生成器和判别器神经网络的连续参数值。在研究GAN效用函数之前,先来看玩家A的收益效用函数f(x, y),它是关于x和y两个连续变量的函数。
要找到均衡点,也就是任一玩家收益效用函数的极小极大或极大极小值。玩家A的极小极大对应的收益能给出两个玩家的策略。对于零和两人博弈,极小极大和极大极小相同,顺序不重要,即$\min_y \max_x f(x, y) = \max_x \min_y f(x, y)$。
对于连续函数,只有当上述函数的解是鞍点时才成立。鞍点是指函数关于每个变量的梯度为零,但不是局部极小值或极大值的点,它在某些输入向量方向上趋于局部最小值,在其他方向上趋于局部最大值。
可以用多元微积分的方法来寻找鞍点,对于多元函数f(x),可以通过以下测试来确定鞍点:
- 计算f(x)关于向量x的梯度$\nabla_x f(x)$,并令其为零。
- 计算函数的海森矩阵$\nabla_x^2 f(x)$,即二阶导数矩阵,在梯度向量$\nabla_x f(x)$为零的每个点进行评估。若海森矩阵在该评估点有正和负的特征值,则该点是鞍点。
以效用函数$f(x, y) = x^2 - y^2$为例,玩家B的效用函数自动为$-x^2 + y^2$。令$f(x, y)$的梯度为零,可得$\nabla f(x, y) = \begin{bmatrix} \frac{\partial f}{\partial x} \\ \frac{\partial f}{\partial y} \end{bmatrix} = \begin{bmatrix} 2x \\ -2y \end{bmatrix} = \begin{bmatrix} 0 \\ 0 \end{bmatrix}$,解得$(x, y) = (0, 0)$。
该函数的海森矩阵为$\nabla^2 f(x, y) = \begin{bmatrix} \frac{\partial^2 f}{\partial x^2} & \frac{\partial^2 f}{\partial x \partial y} \\ \frac{\partial^2 f}{\partial y \partial x} & \frac{\partial^2 f}{\partial y^2} \end{bmatrix} = \begin{bmatrix} 2 & 0 \\ 0 & -2 \end{bmatrix}$,对于任意的(x, y),包括(0, 0)都成立。由于海森矩阵有正特征值2和负特征值 -2,所以点(0, 0)是鞍点。在零和极小极大或极大极小博弈中,玩家A的均衡策略是令x = 0,玩家B的均衡策略是令y = 0。
#### 3. GAN成本函数与训练
在生成对抗网络中,生成器和判别器网络通过在零和博弈中采用极小极大策略相互竞争。这里的行动就是网络选择的参数值,为方便表示,用G表示生成器,D表示判别器。
判别器的目标是正确分类真实数据样本和生成器生成的假样本,它会尝试最大化效用函数:
$U(D, G) = \mathbb{E}_{x \sim P_x(x)} [\log D(x)] + \mathbb{E}_{z \sim P_z(z)} [\log(1 - D(G(z)))]$
其中x是从概率分布$P_x(x)$中抽取的真实数据样本,z是从先验噪声分布$P_z(z)$中抽取的噪声。判别器希望对真实数据样本输出1,对生成的假数据样本输出0。
生成器的效用函数是判别器效用函数的负值,即:
$V(D, G) = - \mathbb{E}_{x \sim P_x(x)} [\log D(x)] - \mathbb{E}_{z \sim P_z(z)} [\log(1 - D(G(z)))]$
生成器会选择参数来最大化$V(D, G)$,即生成能让判别器误判为真实数据的假样本。
生成器G和判别器D通过零和博弈的极小极大策略进行训练。判别器尝试最大化其收益$U(D, G)$并达到其极小极大值:
$u^* = \min_G \max_D \left( \mathbb{E}_{x \sim P_x(x)} [\log D(x)] + \mathbb{E}_{z \sim P_z(z)} [\log(1 - D(G(z)))] \right)$
生成器G尝试最大化其收益$V(D, G)$:
$v^* = \min_D \max_G \left( - \mathbb{E}_{x \sim P_x(x)} [\log D(x)] - \mathbb{E}_{z \sim P_z(z)} [\log(1 - D(G(z)))] \right)$
由于生成器无法控制涉及真实数据的第一项,所以$v^* = \min_D \max_G \left( - \mathbb{E}_{z \sim P_z(z)} [\log(1 - D(G(z)))] \right)$
考虑判别器的极小极大公式,可得判别器在均衡(纳什均衡)时的收益:
$u^* = \max_D \min_G \left( \mathbb{E}_{x \sim P_x(x)} [\log D(x)] + \mathbb{E}_{z \sim P_z(z)} [\log(1 - D(G(z)))] \right)$
在$u^*$处的$\hat{G}$和$\hat{D}$值是两个网络的优化参数,$(\hat{G}, \hat{D})$是判别器效用函数的鞍点。
0
0
复制全文
相关推荐









