原文:Auto-Encoding Variational Bayes
地址:https://arxiv.org/pdf/1312.6114.pdf
1 存在问题
- 变分贝叶斯(VB)方法涉及到对难处理后验的近似的优化,但公共平均场方法需要期望的解析解w.r.t.(with respect to 的缩写。是 关于;谈及,谈到的意思)近似后验,这在一般情况下也是棘手的,因此对于连续潜变量和/或参数具有难解后验分布的有向概率模型进行有效的推理和学习依旧是难解的问题
- 论文的解决方法:变分下界的重新参数化,以得到下界的一个简单可微无偏估计;这个SGVB(随机梯度变分贝叶斯)估计器可以用于几乎任何具有连续潜在变量和/或参数的模型的有效近似后验推断,并且可以直接使用标准的随机梯度上升技术进行优化
- 通过使用SGVB估计器优化识别模型,使推断和学习特别有效,这允许我们执行非常有效的近似后显推断使用简单的祖先采样,这反过来允许我们有效地学习模型参数,不需要对每个数据点使用昂贵的迭代推理方案(如MCMC)。学习的近似后验推理模型也可用于识别、去噪、表示和可视化等任务。当神经网络用于识别模型时,我们得到了变分自编码器
2 方法
- 本节的策略可用于推导具有连续潜在变量的各种有向图形模型的下界估计量(随机目标函数)。
- 有一个每个数据点带有潜在变量的i.i.d.数据集,
- 对(全局)参数执行最大似然(ML)或最大后验(MAP)推断,并对潜在变量进行变分推断。例如,接将这个场景扩展到对全局参数进行变分推断的情况
- 注意,我们的方法可以应用于在线的非平稳设置,例如流数据,但为了简单起见,这里我们假设一个固定数据集
2.1 问题场景
- 考虑由N个连续或离散变量组成的独立同分布样本X=xii=1 N
- 假设数据是由一些随机过程产生的,包括一个未观测到的连续随机变量 𝑧
- 该过程由两个步骤组成:
- 一个值 𝑧𝑖从某些先验分布𝑝𝜃∗(𝑧)生成;
- 一个值𝑥𝑖是从某个条件分布𝑝𝜃∗(𝑥|𝑧)生成的。
- 一个值 𝑧𝑖从某些先验分布𝑝𝜃∗(𝑧)生成;
- 假定先验𝑝𝜃∗(𝑧)和似然𝑝𝜃∗(𝑥|𝑧)来自分布的参数族𝑝𝜃(𝑧)和𝑝𝜃(𝑥|𝑧),并且它们的概率密度函数pdf几乎在𝜃和𝑧的任何地方都是可微的
- 不幸的是,这个过程的很多内容都隐藏在我们的视图中:真正的参数𝜃∗以及潜在变量𝑧𝑖的值对我们来说都是未知的
- 非常重要的是,没有对边际或后验概率做一般的简化假设。相反,我们在这里感兴趣的是一个通用算法,甚至在以下情况下有效地工作:
- Intractability(难解):边际似然的积分∫𝑝𝜃𝑧𝑝𝜃𝑥𝑧𝑑𝑧难解,即无法评价或者区分边际似然值,后验密度函数𝑝𝜃(𝑧|𝑥)=𝑝𝜃𝑥𝑧𝑝𝜃𝑧𝑝𝜃𝑥是难解的,所以不能使用EM算法。对于任何合理的平均场VB算法所要求的积分也是棘手的。这些难题相当普遍,并出现在中等复杂似然函数𝑝𝜃𝑥𝑧的情况下,如具有非线性隐层的神经网络
- 大数据集:我们有太多的数据,批处理优化成本太高;我们希望使用小批量甚至单个数据点进行参数更新。基于采样的解决方案,例如蒙特卡罗EM,通常太慢,因为它涉及到每个数据点昂贵的采样循环
- Intractability(难解):边际似然的积分∫𝑝𝜃𝑧𝑝𝜃𝑥𝑧𝑑𝑧难解,即无法评价或者区分边际似然值,后验密度函数𝑝𝜃(𝑧|𝑥)=𝑝𝜃𝑥𝑧𝑝𝜃𝑧𝑝𝜃𝑥是难解的,所以不能使用EM算法。对于任何合理的平均场VB算法所要求的积分也是棘手的。这些难题相当普遍,并出现在中等复杂似然函数𝑝𝜃𝑥𝑧的情况下,如具有非线性隐层的神经网络
- 对于上述场景中三个相关问题,我们感兴趣并提出解决方案:
- 对参数𝜃进行有效的近似ML或MAP估计。参数本身也可以是有趣的,例如,如果我们分析某些自然过程。它们还允许我们模拟隐藏的随机过程,并生成与真实数据相似的人工数据
- 对给定一个观测值𝑥的参数𝜃的潜在变量𝑧的有效近似后验推断。这对于编码或数据表示任务很有用。
- 变量x的有效近似边际推理。这使得我们能够在需要先验x的情况下执行各种推理任务。计算机视觉中常见的应用包括图像去噪、着色和超分辨率
- 对参数𝜃进行有效的近似ML或MAP估计。参数本身也可以是有趣的,例如,如果我们分析某些自然过程。它们还允许我们模拟隐藏的随机过程,并生成与真实数据相似的人工数据
- 为了解决上述问题,我们引入一个识别模型𝑞𝜑(𝑧|𝑥):一个难以解决的真后验𝜃(𝑧|𝑥)的近似。注意,与平均场变分推断中的近似后验值相比,它不一定是阶乘,它的参数𝜑也不是从某种封闭形式的期望中计算出来的。取而代之的是,我们将介绍一种学习识别模型参数𝜑和生成模型参数𝜃的方法