Forth paper:《PIXELVAE: A LATENT VARIABLE MODEL FOR NAT》阅读笔记

最新推荐文章于 2024-11-25 22:06:14 发布

Jasminexjf

最新推荐文章于 2024-11-25 22:06:14 发布

阅读量1.1k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： Generative models

本文链接：https://blog.csdn.net/Jasminexjf/article/details/82561115

Generative models 专栏收录该内容

17 篇文章

订阅专栏

本文提出PixelVAE模型，它结合了变分自编码器（VAE）和PixelCNN的优点，既能捕获全局结构又能展现细节特征。PixelVAE通过较少的自回归层学习压缩的潜在表示，适用于多种图像数据集。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

相对而言，此篇paper并没有太多去证明该模型背后的数学原理。而是简单的讲解了本文的模型的创新（将pixel CNN 和VAE进行结合），并在不同的数据集上进行experminent.

pixel RNN----pixel CNN----gated pixel CNN----pixel VAE----gated pixel VAE

1.abstract

自然图像建模是无人监督学习的一个里程碑式的挑战。变分自编码器（VAE）学习一个有用的潜在的表示和模型的全局结构，但是很难捕获小细节。PixelCNN的模型细节反映很好了，但是缺少一个潜在的关系的衡量（隐变量），并且很难扩展到捕获大型结构。我们提出了PixelVAE，一个基于PixelCNN的自动回归解码器的VAE模型（结合了VAE和pixelCNN的优点）。我们的模型只需要很少的昂贵的自回归层，与PixelCNN相比，并且学习了比标准VAE更压缩的潜在变量，同时仍然能捕获更多的重要特征。最后，我们将模型引入到不同尺度下的潜在变量的层次结构中

2.Related Work

在相关工作部分，介绍了pixelCNN，然后引出VAE，并在在该部分也阐述了GAN 的效果，在实验部分做出了结果对比。

3.Pixel VAE model

PixelVAE，利用PixelCNN来为VAE建模一个自回归的编码器。VAE假设像素之间是条件独立的，会有模糊的样本；而PixelCNN，对联合分布进行建模，产生锐利的样本，但是缺乏对下游任务更有用的潜在的表示。PixelVAE结合了这两个结构的优点，提供了一个有意义的潜在的表达，同时产生了尖锐的样本。

我们首先将z转换成一系列的卷积层，将其转换成具有与输出图像相同的空间分辨率的功能图，然后将结果的特征映射与图像连接起来。随后，由几个PixelCNN蒙面的卷积层和最后一个PixelCNN 256-way的softmax输出进一步处理了这些连接的功能图

pixel VAE:在解码器中使用的PixelCNN层非常少，依赖于潜在的变量来对输入的结构进行建模，比我们的PixelCNN层的联合接受域更大

通过分层的潜在空间分解来生成自上而下的方法。推理网络通过组合连续的确定性函数来计算随机变量的参数，从而产生潜在的变量。虚线表示对成本的贡献。

4.结论：

本文介绍了一种具有自回归解码器的自然图像VAE模型，该模型在多个数据集上实现了较强的性能。我们探索了模型的属性，表明它可以产生比标准VAE更多的压缩的潜在表示，并且它可以使用比PixelCNN更少的自回归层。我们在64 x64的ImageNet上建立了一个新的最先进的MNIST数据集，并演示了我们的模型在LSUN卧室中生成高质量的样本。

PixelVAE通过忽略图片中的小结构来学习压缩的表示，这对于下游任务来说是非常有用的。在未来的工作中，我们可以进一步探索我们的模型的半监督分类和表示学习能力