从单模态到多模态:深度生成模型的演进历程

在人工智能领域,生成模型的发展一直是研究热点。从最早的自编码器到如今的多模态扩散模型,这一技术路线不断突破,为创意内容生成、数据增强和表示学习等领域带来革命性变化。本文将详细介绍几种关键生成模型的技术原理和演进路径,展示从单模态到多模态的技术发展历程。

生成模型简介

1. GAN(生成对抗网络,2014年6月)

在这里插入图片描述

背景

由Ian Goodfellow等人提出,旨在通过对抗训练生成逼真数据。其核心思想是通过生成器与判别器的博弈,使生成器逐渐逼近真实数据分布。

原理

  • 生成器(Generator):将随机噪声zzz映射到数据空间,生成样本G(z)G(z)G(z)
  • 判别器(Discriminator):判断输入样本是否来自真实数据分布,输出概率D(x)D(x)D(x)
  • 对抗目标:生成器最大化判别器的判断错误,判别器最小化分类误差:
    min⁡Gmax⁡DEx∼pdata(x)[log⁡D(x)]+Ez∼pz(z)[log⁡(1−D(G(z)))] \min_G \max_D \mathbb{E}_{x\sim p_{data}(x)}[\log D(x)] + \mathbb{E}_{z\sim p_z(z)}[\log(1 - D(G(z)))] GminDmaxExpdata(x)[logD(x)]+Ezpz(z)[log(1D(G(z)))]

网络结构

  • 生成器:多层全连接或卷积网络,输出与真实数据相同维度的样本。
  • 判别器:类似分类器,通常为全连接或卷积网络,输出二分类概率。

优缺点

  • 优点
    • 生成样本质量高,支持多样化生成(如高分辨率图像)。
    • 支持条件生成(如CGAN)。
  • 缺点
    • 训练不稳定(模式崩溃、梯度消失)。
    • 难以评估收敛性,需平衡生成器与判别器的训练速度。

应用场景

  • 图像生成(如DeepFakes)、风格迁移(如CycleGAN)、超分辨率重建

2. AE(自编码器,1986年)

在这里插入图片描述

背景

经典无监督学习模型,由编码器和解码器组成,目标是学习数据的紧凑表示并重构原始数据。

原理

  • 编码器:将输入xxx压缩为低维潜在向量z=E(x)z = E(x)z=E(x)
  • 解码器:从zzz重构x′x'x,最小化重构误差:
    L=∣∣x−D(E(x))∣∣2 \mathcal{L} = ||x - D(E(x))||^2 L=∣∣xD(E(x))2

网络结构

  • 编码器:全连接或卷积层,逐步降低维度。
  • 解码器:反卷积或全连接层,恢复原始数据维度。

优缺点

  • 优点
    • 简单高效,适合降维和去噪。
    • 可用于特征提取(如图像压缩)。
  • 缺点
    • 潜在空间无明确结构,生成样本模糊。
    • 不支持直接采样生成新样本。

应用场景

  • 数据压缩(如图像压缩)、特征提取去噪(如图像修复)。

3. VAE(变分自编码器,2013年12月)

在这里插入图片描述

背景

基于贝叶斯概率框架,通过变分推断学习潜在变量分布,解决AE的潜在空间不连续问题。

原理

  • 编码器:输出潜在变量分布参数μ,σ\mu, \sigmaμ,σ,即qϕ(z∣x)q_\phi(z|x)qϕ(zx)
  • 解码器:从z∼N(μ,σ2)z \sim \mathcal{N}(\mu, \sigma^2)zN(μ,σ2)生成样本。
  • 损失函数:重构损失(Reconstruction Loss) + KL散度(正则化):
    L=Eqϕ(z∣x)[log⁡pθ(x∣z)]−KL(qϕ(z∣x)∣∣p(z)) \mathcal{L} = \mathbb{E}_{q_\phi(z|x)}[\log p_\theta(x|z)] - \text{KL}(q_\phi(z|x) || p(z)) L=Eqϕ(zx)[logpθ(xz)]KL(qϕ(zx)∣∣p(z))

网络结构

  • 编码器:输出均值和方差的两个向量。
  • 重参数化技巧z=μ+ϵ⋅σz = \mu + \epsilon \cdot \sigmaz=μ+ϵσ, ϵ∼N(0,I)\epsilon \sim \mathcal{N}(0, I)ϵ
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

kuokay

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值