从单模态到多模态：深度生成模型的演进历程

最新推荐文章于 2025-07-03 15:03:14 发布

kuokay

最新推荐文章于 2025-07-03 15:03:14 发布

阅读量2k

点赞数 36

CC 4.0 BY-SA版权

文章标签：大模型 VAE VQ-VAE DDPM DALLE DIFFUSION MODEL

在人工智能领域，生成模型的发展一直是研究热点。从最早的自编码器到如今的多模态扩散模型，这一技术路线不断突破，为创意内容生成、数据增强和表示学习等领域带来革命性变化。本文将详细介绍几种关键生成模型的技术原理和演进路径，展示从单模态到多模态的技术发展历程。

生成模型简介

在这里插入图片描述

由Ian Goodfellow等人提出，旨在通过对抗训练生成逼真数据。其核心思想是通过生成器与判别器的博弈，使生成器逐渐逼近真实数据分布。

生成器（Generator）：将随机噪声 $z$ 映射到数据空间，生成样本 $G (z)$ 。
判别器（Discriminator）：判断输入样本是否来自真实数据分布，输出概率 $D (x)$ 。
对抗目标：生成器最大化判别器的判断错误，判别器最小化分类误差：
$\min_G \max_D \mathbb{E}_{x\sim p_{data}(x)}[\log D(x)] + \mathbb{E}_{z\sim p_z(z)}[\log(1 - D(G(z)))]$

在这里插入图片描述

经典无监督学习模型，由编码器和解码器组成，目标是学习数据的紧凑表示并重构原始数据。

在这里插入图片描述

基于贝叶斯概率框架，通过变分推断学习潜在变量分布，解决AE的潜在空间不连续问题。

编码器：输出潜在变量分布参数 $μ,σ\mu, \sigma$ ，即 $qϕ(z∣x)q_\phi(z|x)$ 。
解码器：从 $\sim \mathcal{N}(\mu, \sigma^2)$ 生成样本。
损失函数：重构损失（Reconstruction Loss） + KL散度（正则化）：
$\mathcal{L} = \mathbb{E}_{q_\phi(z|x)}[\log p_\theta(x|z)] - \text{KL}(q_\phi(z|x) || p(z))$