1. Introduction to Image Generation
图像生成指的是使用算法或计算模型从头开始创建图像或视觉内容的过程。这一过程通常利用深度学习技术,模型根据输入数据(如文本、图像片段或其他信号)生成高质量的视觉输出。图像生成在艺术创作、内容生成、游戏设计、医学影像等领域有着广泛的应用。
以下将解释几种常用的图像生成模型类型
1.1 Variational Auto-encoder (VAE)
变分自动编码器(VAE)是一种生成模型,通过学习数据潜在空间的分布来生成新的图像。VAE的核心思想是将输入图像编码为潜在变量的概率分布,而不是固定的潜在向量。

作为一种图像生成模型,VAE通过从潜在空间采样潜在变量并将其输入解码器来生成新图像。生成的图像通常比较模糊,但VAE具有良好的训练稳定性和多样性。
有关详细描述和相关数学概念,请参考我的另一篇文章:
成贤街的猫:(李宏毅)机器学习 2023 Spring HW83 赞同 · 0 评论文章

1.2 Flow-based Generative Model
Flow-based Generative Models 是一类通过可逆变换生成数据的模型。其核心思想是通过一系列可逆函数将简单分布(如标准正态分布)映射到复杂数据分布(如图像数据)。这些变换是可逆的,允许通过逆变换从数据空间精确恢复潜在空间表示,从而实现图像生成和重建。

流基模型的主要特点是:
-
可逆性: 每个变换必须是可逆的,允许在训练期间进行精确的概率计算。
-
显式概率密度: 流模型可以显式计算数据的概率密度,这意味着生成的图像不仅高质量,而且具有可计算的生成概率。
这些模型通常由一系列变换组成,逐渐将简单的潜在分布转换为复杂的数据分布。训练过程通过最大化似然函数来优化模型。
作为一种图像生成模型,流基模型通过逆变换过程生成图像,产生高质量的图像,并具有可计算的概率密度。
1.3 Diffusion Model
扩散模型是一种基于逐渐添加噪声和去噪过程来生成数据的生成模型。其核心思想是逐渐向真实数据(如图像)添加噪声,直到数据变成纯噪声,然后训练一个神经网络模型来学习如何去除噪声并恢复原始数据。这个过程类似于物理学中的粒子扩散,数据从清晰状态逐渐“扩散”到噪声状态,然后通过逆过程恢复。

扩散模型的主要步骤是:
-
前向过程: 逐渐向数据添加噪声,直到其变成纯噪声。这是一个马尔可夫过程,每一步都添加少量噪声。
-
反向过程: 训练一个神经网络模型来逆转前向过程,去噪并恢复数据的原始外观。通过最大化似然估计来训练模型。
作为一种图像生成模型,扩散模型通常使用预训练的去噪神经网络,从纯噪声开始生成清晰图像,逐步在每一步去除噪声。与其他生成模型相比,扩散模型可以提供高质量的细节和多样性的生成图像,同时具有更稳定的训练过程。
1.3.1 Denoising Diffusion Probabilistic Models (DDPM)
DDPM 的核心思想是模拟数据扩散(在多个步骤中添加噪声)的过程,并学习如何逆转它(去噪)以生成真实样本。



前向步骤是一个逐步将真实数据与随机高斯噪声进行破坏的过程。通过这个逐步的过程,原始数据被转化为接近各向同性的高斯噪声。
从一个真实的数据样本 (例如,一张图像)开始,噪声按照预定义的计划逐步添加,生成逐渐变得更噪声的数据
。 在第
步,噪声数据通过以下公式生成: