高级神经网络中的零和博弈与生成对抗网络详解

立即解锁
发布时间: 2025-09-09 00:26:33 阅读量: 10 订阅数: 19 AIGC
PDF

深度学习实战:TensorFlow数学解析

### 高级神经网络中的零和博弈与生成对抗网络详解 #### 1. 零和博弈基础 在博弈论里,零和博弈是一种数学模型,在这种情境中,每个参与者的收益或损失都会被其他参与者的损失或收益所完全抵消,整个参与者群体的净收益或净损失为零。以玩家A和玩家B的零和博弈为例,这种博弈可以用收益矩阵来表示。 收益矩阵的每个单元格代表玩家A在与玩家B的各种行动组合下的博弈收益。由于是零和博弈,玩家B的收益就是玩家A收益的负值。 若玩家A采用极大极小策略,会选择每行最小值中的最大值。例如,从{-2, -10, 6}中选择最大值6,对应策略L3,此时玩家B的行动是M2。若玩家A采用极小极大策略,其收益是每列最大值中的最小值,即{8, 6, 10}中的最小值6,同样对应策略L3和玩家B的行动M2。 玩家B的极大极小收益是其每次行动最小值中的最大值,即 -(-8, -6, -12)中的最大值 -6,对应行动M2和玩家A的策略L3。玩家B的极小极大收益是玩家A每次行动下玩家B可能的最大值中的最小值,同样是 -6。 从这个零和博弈中可以得出以下结论: - 无论玩家A和玩家B采用极大极小策略还是极小极大策略,最终玩家A会选择策略L3,玩家B会选择行动M2,玩家A的收益为6,玩家B的收益为 -6。而且玩家的极小极大值和极大极小值与他们采用极小极大策略时的实际收益值相吻合。 - 这意味着在零和博弈中,一个玩家的极小极大策略能得出两个玩家的实际策略。若考虑玩家A的极小极大策略,就能确定两个玩家的行动。若玩家A的收益效用为U(S1, S2),通过应用玩家A或B的极小极大策略就能找出玩家A和玩家B的行动S1和S2。 #### 2. 极小极大与鞍点 对于涉及玩家A和玩家B的零和极小极大问题,玩家A的收益U(x, y)可以表示为:$\hat{U} = \min_y \max_x U(x, y)$,其中x表示玩家A的行动,y表示玩家B的行动。 对应$\hat{U}$的x和y值分别是玩家A和玩家B的均衡策略。在零和两人博弈中,极小极大和极大极小策略会产生相同的结果,只要玩家坚持这两种策略之一,就不会改变行动。而且,由于极小极大值等于极大极小值,定义它们的顺序并不重要。 在零和博弈中,玩家A和玩家B独立选择针对对方每个策略的最佳策略时,会发现有一种策略组合会重叠,这就是两个玩家的最佳策略,等同于他们的极小极大策略,也是该博弈的纳什均衡。 之前为了便于用收益矩阵解释,策略是离散的,但策略也可以是连续值。在生成对抗网络(GAN)中,策略就是生成器和判别器神经网络的连续参数值。在研究GAN效用函数之前,先来看玩家A的收益效用函数f(x, y),它是关于x和y两个连续变量的函数。 要找到均衡点,也就是任一玩家收益效用函数的极小极大或极大极小值。玩家A的极小极大对应的收益能给出两个玩家的策略。对于零和两人博弈,极小极大和极大极小相同,顺序不重要,即$\min_y \max_x f(x, y) = \max_x \min_y f(x, y)$。 对于连续函数,只有当上述函数的解是鞍点时才成立。鞍点是指函数关于每个变量的梯度为零,但不是局部极小值或极大值的点,它在某些输入向量方向上趋于局部最小值,在其他方向上趋于局部最大值。 可以用多元微积分的方法来寻找鞍点,对于多元函数f(x),可以通过以下测试来确定鞍点: - 计算f(x)关于向量x的梯度$\nabla_x f(x)$,并令其为零。 - 计算函数的海森矩阵$\nabla_x^2 f(x)$,即二阶导数矩阵,在梯度向量$\nabla_x f(x)$为零的每个点进行评估。若海森矩阵在该评估点有正和负的特征值,则该点是鞍点。 以效用函数$f(x, y) = x^2 - y^2$为例,玩家B的效用函数自动为$-x^2 + y^2$。令$f(x, y)$的梯度为零,可得$\nabla f(x, y) = \begin{bmatrix} \frac{\partial f}{\partial x} \\ \frac{\partial f}{\partial y} \end{bmatrix} = \begin{bmatrix} 2x \\ -2y \end{bmatrix} = \begin{bmatrix} 0 \\ 0 \end{bmatrix}$,解得$(x, y) = (0, 0)$。 该函数的海森矩阵为$\nabla^2 f(x, y) = \begin{bmatrix} \frac{\partial^2 f}{\partial x^2} & \frac{\partial^2 f}{\partial x \partial y} \\ \frac{\partial^2 f}{\partial y \partial x} & \frac{\partial^2 f}{\partial y^2} \end{bmatrix} = \begin{bmatrix} 2 & 0 \\ 0 & -2 \end{bmatrix}$,对于任意的(x, y),包括(0, 0)都成立。由于海森矩阵有正特征值2和负特征值 -2,所以点(0, 0)是鞍点。在零和极小极大或极大极小博弈中,玩家A的均衡策略是令x = 0,玩家B的均衡策略是令y = 0。 #### 3. GAN成本函数与训练 在生成对抗网络中,生成器和判别器网络通过在零和博弈中采用极小极大策略相互竞争。这里的行动就是网络选择的参数值,为方便表示,用G表示生成器,D表示判别器。 判别器的目标是正确分类真实数据样本和生成器生成的假样本,它会尝试最大化效用函数: $U(D, G) = \mathbb{E}_{x \sim P_x(x)} [\log D(x)] + \mathbb{E}_{z \sim P_z(z)} [\log(1 - D(G(z)))]$ 其中x是从概率分布$P_x(x)$中抽取的真实数据样本,z是从先验噪声分布$P_z(z)$中抽取的噪声。判别器希望对真实数据样本输出1,对生成的假数据样本输出0。 生成器的效用函数是判别器效用函数的负值,即: $V(D, G) = - \mathbb{E}_{x \sim P_x(x)} [\log D(x)] - \mathbb{E}_{z \sim P_z(z)} [\log(1 - D(G(z)))]$ 生成器会选择参数来最大化$V(D, G)$,即生成能让判别器误判为真实数据的假样本。 生成器G和判别器D通过零和博弈的极小极大策略进行训练。判别器尝试最大化其收益$U(D, G)$并达到其极小极大值: $u^* = \min_G \max_D \left( \mathbb{E}_{x \sim P_x(x)} [\log D(x)] + \mathbb{E}_{z \sim P_z(z)} [\log(1 - D(G(z)))] \right)$ 生成器G尝试最大化其收益$V(D, G)$: $v^* = \min_D \max_G \left( - \mathbb{E}_{x \sim P_x(x)} [\log D(x)] - \mathbb{E}_{z \sim P_z(z)} [\log(1 - D(G(z)))] \right)$ 由于生成器无法控制涉及真实数据的第一项,所以$v^* = \min_D \max_G \left( - \mathbb{E}_{z \sim P_z(z)} [\log(1 - D(G(z)))] \right)$ 考虑判别器的极小极大公式,可得判别器在均衡(纳什均衡)时的收益: $u^* = \max_D \min_G \left( \mathbb{E}_{x \sim P_x(x)} [\log D(x)] + \mathbb{E}_{z \sim P_z(z)} [\log(1 - D(G(z)))] \right)$ 在$u^*$处的$\hat{G}$和$\hat{D}$值是两个网络的优化参数,$(\hat{G}, \hat{D})$是判别器效用函数的鞍点。
corwn 最低0.47元/天 解锁专栏
买1年送3月
继续阅读 点击查看下一篇
profit 400次 会员资源下载次数
profit 300万+ 优质博客文章
profit 1000万+ 优质下载资源
profit 1000万+ 优质文库回答
复制全文

相关推荐

张_伟_杰

人工智能专家
人工智能和大数据领域有超过10年的工作经验,拥有深厚的技术功底,曾先后就职于多家知名科技公司。职业生涯中,曾担任人工智能工程师和数据科学家,负责开发和优化各种人工智能和大数据应用。在人工智能算法和技术,包括机器学习、深度学习、自然语言处理等领域有一定的研究
最低0.47元/天 解锁专栏
买1年送3月
百万级 高质量VIP文章无限畅学
千万级 优质资源任意下载
千万级 优质文库回答免费看
立即解锁

专栏目录

最新推荐

媒体管理与收听指南

# 媒体管理与收听指南 ## 一、音乐库管理 ### (一)处理大容量音乐库 拥有大量音乐时,会面临两个问题:一是在音乐应用中管理所有音乐,二是将音乐同步到无法容纳所有内容的移动设备。为了更好地管理音乐文件,有以下建议: 1. **精确标签**:仔细为音乐添加标签,以便能轻松找到所需音乐。使用更多的音乐流派可以更方便地对音乐收藏进行分类和筛选。在音乐应用的“信息”对话框中输入流派名称,即可为音乐添加流派标签。 2. **清理音乐**:检查不常听的音乐,创建一个智能播放列表,规则设置为“[最后播放时间] [不在最后] 6 [个月]”,查看符合条件的音乐,将这些不常听的音乐移至第二个音乐库。这样

Mac系统安全与实用工具全解析

# Mac系统安全与实用工具全解析 ## 一、Mac系统更新与数据安全保护 ### 1.1 系统更新提示 若在程序坞的App Store图标上看到小数字,这意味着有相应数量的更新在等待。此时,需启动Mac App Store,然后点击“更新”标签来进行更新操作。 ### 1.2 数据防窥探安全措施 为保护文件不被局域网内其他用户或能物理访问Mac的用户干扰,可采取以下安全措施: - **阻止或限制连接**: - 打开“系统偏好设置”应用程序(可从“应用程序”文件夹、菜单或程序坞中启动)。 - 点击“共享”图标,打开“共享”系统偏好设置面板。 - 若禁用“共享”面板中

构建跨平台任务列表应用:iOS与macOS的数据存储与界面适配

# 构建跨平台任务列表应用:iOS 与 macOS 的数据存储与界面适配 ## 1. 实现 iOS 任务数据的持久化存储 在开发 iOS 任务列表应用 TahDoodle 时,我们发现当程序退出后,所有数据都会丢失,下次启动应用时又会回到示例数据。为了解决这个问题,我们需要实现任务数据的持久化存储。 ### 1.1 确定存储位置 首先,我们需要获取一个可以存储任务数据的本地 URL。这可以通过 `FileManager` 来实现: ```swift class TaskStore: ObservableObject { private let fileURL: URL = {

云计算与混合云:技术解析与应用指南

### 云计算与混合云:技术解析与应用指南 #### 1. 迈向云端的建议 在领略到云计算的魅力后,若想将网络迁移至云端,可参考以下建议: - **避免依赖劣质网络连接**:采用云计算前,勿依赖消费级网络连接。消费级网络虽有时速度快,但故障修复时间不定。建议投资高速企业级网络连接,其可随业务需求增长而扩展。 - **评估已使用的云应用**:若使用 Gmail 而非 Exchange 处理邮件,表明已在使用云服务。其他常见云服务包括远程 Web 或 FTP 主机、Dropbox 等文件共享服务、Carbonite 等在线备份服务以及薪资服务等。 - **逐步迁移至云端**:先确定一个适合迁移至

SwiftUI状态管理与UIKit视图集成全解析

### SwiftUI 状态管理与 UIKit 视图集成全解析 #### 1. SwiftUI 状态管理 在 SwiftUI 中,状态管理是构建动态用户界面的关键。以下将介绍几种常用的状态管理方式。 ##### 1.1 使用 @ObservedObject 在 `ContentView.swift` 文件中,我们可以展示当前选择的搜索引擎。以下是具体代码: ```swift import SwiftUI struct ContentView: View { @ObservedObject var searchEngine = SearchEngineChoice() v

提升Windows使用便捷性的实用指南

### 提升Windows使用便捷性的实用指南 在日常使用电脑的过程中,我们常常会遇到各种操作上的不便,尤其是对于那些有行动或灵活性问题的用户。不过,Windows系统提供了一系列实用的功能和设置,能够显著提升使用的便捷性。下面将为大家详细介绍如何让键盘更易使用以及通过语音控制Windows的方法。 #### 让键盘更易使用 如果你在操作键盘时存在一定困难,可通过激活以下几个功能来增强键盘的可访问性: - **粘滞键(Sticky keys)**:该功能允许你一次按下一个键来实现多键组合快捷键,比如 `Ctrl + C` 和 `Alt + Tab` 等。 - **筛选键(Filter ke

PHP变量与函数全面解析

### PHP变量与函数全面解析 #### 1. PHP变量概述 PHP中的变量与shell变量类似,但PHP变量可以存储不同类型的值。引用变量时,无论读取还是设置值,都要在变量名前使用美元符号($)。PHP变量的类型主要有以下几种: - 字符串(Strings) - 整数(Integers) - 浮点数(Floats) - 数组(Arrays) - 对象(Objects) - 空值(Nulls) 下面我们详细探讨这些变量类型。 #### 2. 字符串变量 字符串是由引号括起来的一系列字符。可以使用单引号(')或双引号(")来定义字符串,但必须使用相同类型的引号开始和结束字符串,并且如果

提升MacBook使用效率与故障排除指南

### 提升MacBook使用效率与故障排除指南 #### 1. Keynote幻灯片与备注打印 如果你需要展示包含大量信息的长幻灯片,那么打印包含幻灯片缩略图和备注的讲义是个不错的选择。而且,除了纸质讲义,你还可以使用Keynote创建电子PDF文件,让观众从你的网站下载。如果你是教育工作者,还能结合交互式白板使用Keynote。 打印幻灯片和备注的步骤如下: 1. 在Keynote中,选择“文件”➪“打印”,或者按下⌘ + P。Keynote会显示打印面板,若有需要,可点击面板底部的“显示详细信息”按钮展开面板以显示所有设置。 2. 选择以下格式之一(每种格式会显示不同的布局选项):

Unity游戏部署指南:从桌面到网页

# Unity游戏部署指南:从桌面到网页 ## 1. 桌面平台部署 ### 1.1 开始构建桌面应用 初次学习使用Unity构建游戏时,最简单的起点是将游戏部署到桌面计算机,支持的桌面系统包括Windows、Mac和Linux。由于Unity本身可在桌面计算机上运行,因此你可以为正在使用的计算机构建应用。 以下是构建桌面应用的具体步骤: 1. 打开任意Unity项目。任何项目都适用,建议在不同的构建过程中使用不同的项目,以验证Unity可以将任何项目构建到任何平台。 2. 选择“File > Build Settings”打开构建设置窗口。默认情况下,当前平台会设置为PC、Mac和Linu

探索云计算网络与Windows365的未来

# 探索云计算网络与 Windows 365 的未来 ## 1. 网络基础:互联网与云 互联网,也被称为“云”,是一个由众多网络相互连接而成的庞大网络体系。由于其连接方式极为复杂,难以用图表清晰展示,所以我们用“云”来简化表述。 ### 1.1 微软网络架构 想象一下,你购买了一批计算机,将它们放置在车库的架子上,并接入本地网络,这样就创建了一个数据中心。像微软这样的大公司也会构建数据中心,而且规模巨大。你可以通过网页浏览器和搜索引擎查看微软数据中心的图片,其规模令人惊叹。你的云 PC 就存放在这样的数据中心里(同时在其他地方有备份以确保冗余),并通过互联网与之连接。 微软等公司不仅拥有