在人工智能领域,生成模型的发展一直是研究热点。从最早的自编码器到如今的多模态扩散模型,这一技术路线不断突破,为创意内容生成、数据增强和表示学习等领域带来革命性变化。本文将详细介绍几种关键生成模型的技术原理和演进路径,展示从单模态到多模态的技术发展历程。
生成模型简介
1. GAN(生成对抗网络,2014年6月)
背景
由Ian Goodfellow等人提出,旨在通过对抗训练生成逼真数据。其核心思想是通过生成器与判别器的博弈,使生成器逐渐逼近真实数据分布。
原理
- 生成器(Generator):将随机噪声zzz映射到数据空间,生成样本G(z)G(z)G(z)。
- 判别器(Discriminator):判断输入样本是否来自真实数据分布,输出概率D(x)D(x)D(x)。
- 对抗目标:生成器最大化判别器的判断错误,判别器最小化分类误差:
minGmaxDEx∼pdata(x)[logD(x)]+Ez∼pz(z)[log(1−D(G(z)))] \min_G \max_D \mathbb{E}_{x\sim p_{data}(x)}[\log D(x)] + \mathbb{E}_{z\sim p_z(z)}[\log(1 - D(G(z)))] GminDmaxEx∼pdata(x)[logD(x)]+Ez∼pz(z)[log(1−D(G(z)))]
网络结构
- 生成器:多层全连接或卷积网络,输出与真实数据相同维度的样本。
- 判别器:类似分类器,通常为全连接或卷积网络,输出二分类概率。
优缺点
- 优点:
- 生成样本质量高,支持多样化生成(如高分辨率图像)。
- 支持条件生成(如CGAN)。
- 缺点:
- 训练不稳定(模式崩溃、梯度消失)。
- 难以评估收敛性,需平衡生成器与判别器的训练速度。
应用场景
- 图像生成(如DeepFakes)、风格迁移(如CycleGAN)、超分辨率重建。
2. AE(自编码器,1986年)
背景
经典无监督学习模型,由编码器和解码器组成,目标是学习数据的紧凑表示并重构原始数据。
原理
- 编码器:将输入xxx压缩为低维潜在向量z=E(x)z = E(x)z=E(x)。
- 解码器:从zzz重构x′x'x′,最小化重构误差:
L=∣∣x−D(E(x))∣∣2 \mathcal{L} = ||x - D(E(x))||^2 L=∣∣x−D(E(x))∣∣2
网络结构
- 编码器:全连接或卷积层,逐步降低维度。
- 解码器:反卷积或全连接层,恢复原始数据维度。
优缺点
- 优点:
- 简单高效,适合降维和去噪。
- 可用于特征提取(如图像压缩)。
- 缺点:
- 潜在空间无明确结构,生成样本模糊。
- 不支持直接采样生成新样本。
应用场景
- 数据压缩(如图像压缩)、特征提取、去噪(如图像修复)。
3. VAE(变分自编码器,2013年12月)
背景
基于贝叶斯概率框架,通过变分推断学习潜在变量分布,解决AE的潜在空间不连续问题。
原理
- 编码器:输出潜在变量分布参数μ,σ\mu, \sigmaμ,σ,即qϕ(z∣x)q_\phi(z|x)qϕ(z∣x)。
- 解码器:从z∼N(μ,σ2)z \sim \mathcal{N}(\mu, \sigma^2)z∼N(μ,σ2)生成样本。
- 损失函数:重构损失(Reconstruction Loss) + KL散度(正则化):
L=Eqϕ(z∣x)[logpθ(x∣z)]−KL(qϕ(z∣x)∣∣p(z)) \mathcal{L} = \mathbb{E}_{q_\phi(z|x)}[\log p_\theta(x|z)] - \text{KL}(q_\phi(z|x) || p(z)) L=Eqϕ(z∣x)[logpθ(x∣z)]−KL(qϕ(z∣x)∣∣p(z))
网络结构
- 编码器:输出均值和方差的两个向量。
- 重参数化技巧:z=μ+ϵ⋅σz = \mu + \epsilon \cdot \sigmaz=μ+ϵ⋅σ, ϵ∼N(0,I)\epsilon \sim \mathcal{N}(0, I)ϵ∼