TensorFlow-Examples中的变分自编码器实现详解-CSDN博客

本文链接：https://blog.csdn.net/gitblog_00419/article/details/148325620

TensorFlow-Examples中的变分自编码器实现详解

TensorFlow-Examples TensorFlow Tutorial and Examples for Beginners (support TF v1 & v2) 项目地址: https://gitcode.com/gh_mirrors/te/TensorFlow-Examples

变分自编码器(VAE)基础概念

变分自编码器(Variational Autoencoder, VAE)是一种强大的生成模型，它结合了深度学习和概率图模型的优势。与传统的自编码器不同，VAE不是简单地将输入数据压缩到潜在空间，而是学习输入数据的概率分布。

VAE的核心思想是通过编码器网络将输入数据映射到潜在空间的概率分布(通常是高斯分布)，然后从这个分布中采样，再通过解码器网络重构原始输入。这种设计使得VAE不仅能重构输入数据，还能生成新的类似数据。

代码实现解析

1. 数据准备与参数设置

该实现使用MNIST手写数字数据集作为训练样本，每个图像被展平为784维向量(28x28像素)。关键参数包括：

学习率：0.001
训练步数：30000
批量大小：64
隐藏层维度：512
潜在空间维度：2(便于可视化)

2. 网络架构设计

VAE包含两个主要部分：编码器和解码器。

编码器部分：

输入层：784维(MNIST图像展平后)
隐藏层：512维，使用tanh激活函数
潜在空间：输出均值和标准差两个2维向量

解码器部分：

输入层：2维潜在变量
隐藏层：512维，使用tanh激活函数
输出层：784维，使用sigmoid激活函数(像素值在0-1之间)

3. 关键实现细节

权重初始化：使用Xavier Glorot初始化方法，这种方法考虑了前向和后向传播的梯度流动，有助于深层网络的训练。

def glorot_init(shape):
    return tf.random_normal(shape=shape, stddev=1. / tf.sqrt(shape[0] / 2.))

潜在空间采样：采用"重参数化技巧"(reparameterization trick)，这是VAE能够训练的关键：

eps = tf.random_normal(tf.shape(z_std), dtype=tf.float32, mean=0., stddev=1.0)
z = z_mean + tf.exp(z_std / 2) * eps

4. 损失函数设计

VAE的损失函数由两部分组成：

重构损失：衡量解码器输出与原始输入的相似度，使用交叉熵损失
KL散度损失：使潜在变量的分布接近标准正态分布，起到正则化作用

def vae_loss(x_reconstructed, x_true):
    # 重构损失
    encode_decode_loss = x_true * tf.log(1e-10 + x_reconstructed) \
                       + (1 - x_true) * tf.log(1e-10 + 1 - x_reconstructed)
    encode_decode_loss = -tf.reduce_sum(encode_decode_loss, 1)
    
    # KL散度损失
    kl_div_loss = 1 + z_std - tf.square(z_mean) - tf.exp(z_std)
    kl_div_loss = -0.5 * tf.reduce_sum(kl_div_loss, 1)
    
    return tf.reduce_mean(encode_decode_loss + kl_div_loss)

5. 训练过程

使用RMSProp优化器进行训练，每1000步打印一次损失值：

optimizer = tf.train.RMSPropOptimizer(learning_rate=learning_rate)
train_op = optimizer.minimize(loss_op)

6. 生成新样本

训练完成后，可以从潜在空间均匀采样，通过解码器生成新的手写数字图像：

# 构建20x20的数字流形
n = 20
x_axis = np.linspace(-3, 3, n)
y_axis = np.linspace(-3, 3, n)

canvas = np.empty((28 * n, 28 * n))
for i, yi in enumerate(x_axis):
    for j, xi in enumerate(y_axis):
        z_mu = np.array([[xi, yi]] * batch_size)
        x_mean = sess.run(decoder, feed_dict={noise_input: z_mu})
        canvas[(n - i - 1) * 28:(n - i) * 28, j * 28:(j + 1) * 28] = \
        x_mean[0].reshape(28, 28)