(Arxiv-2025)为统一的多模态理解与生成协调视觉表示

最新推荐文章于 2025-07-25 00:47:15 发布

顾道长生'

最新推荐文章于 2025-07-25 00:47:15 发布

阅读量1.3k

点赞数 29

CC 4.0 BY-SA版权

分类专栏：视觉语言模型 Foundation Model 基础架构文章标签：多模态生成与理解计算机视觉

本文链接：https://blog.csdn.net/wl1780852311/article/details/149025564

基础架构同时被 3 个专栏收录

109 篇文章

订阅专栏

Foundation Model

66 篇文章

订阅专栏

视觉语言模型

12 篇文章

订阅专栏

为统一的多模态理解与生成协调视觉表示

paper是S-Lab发布在Arxiv 2025的工作

paper title：Harmonizing Visual Representations for Unified Multimodal Understanding and Generation

Code：链接

图1：图像生成和理解示例概览。所有结果均由提出的Harmon-1.5B模型获得，该模型使用共享的视觉编码器进行两项任务。

Abstract

将视觉理解和生成统一到一个单一的多模态框架中仍然是一个重大挑战，因为这两个任务本质上是异质的，要求在不同的粒度级别上进行表示。目前采用向量量化（VQ）或变分自编码器（VAE）进行统一视觉表示的方法，优先考虑图像的内在特征，而忽视了语义，从而妥协了理解性能。在这项工作中，我们从遮挡图像建模（MIM）中汲取灵感，MIM通过遮挡与重建预训练学习丰富的语义，并成功扩展到遮挡自回归（MAR）图像生成。对MAR编码器表示的初步研究表明，MAR在视觉概念的线性探测准确性和精确特征响应方面表现出色，这表明MAR在超越其原始生成角色的视觉理解任务中具有潜力。基于这些见解，我们提出了Harmon，这是一个统一的自回归框架，通过共享的MAR编码器协调理解和生成任务。通过逐步优化理解和生成能力的三阶段训练过程，Harmon在GenEval、MJHQ30K和WISE基准测试上实现了最先进的图像生成结果，同时在图像理解基准测试上与采用专用语义编码器（如Janus）的方法相媲美。我们的代码和模型将在https://github.com/wusize/Harmon提供。

1. Introduction

“我无法创造的，我就不理解。” — 理查德·费曼

从文本描述生成图像和通过有针对性的问题理解图像代表了AI研究的前沿。随着这两个任务的重大进展，已经开发了大量的文本到图像生成模型 [3, 9, 11, 64, 69–71, 100] 和多模态理解的大型语言模型 (LLM) [16, 17, 21, 44, 52, 53, 88, 92, 95, 99]，这些都得益于模型架构和计算规模的进步。为了进一步推动这一领域的边界，将这两个任务统一到一个单一且协调的框架中，既能处理理解任务又能生成图像，是下一代多模态智能所极为渴望的。

早期的尝试 [77, 78, 81, 84] 通过用LLM嵌入来提示扩散生成器，将最先进的扩散模型和多模态LLM结合起来。这些方法受限于图像生成和文本序列建模之间的整合薄弱，导致基于指令的生成性能不佳 [32]。最近，通过预测下一个token的方法 [54, 79, 86, 89] 或去噪扩散框架 [90, 91, 97, 98]，实现了生成和理解的更紧密耦合，其中这两项任务的视觉表示被联合建模。

视觉理解和生成本质上是异质的任务，需要在不同的粒度级别上进行表示。具体而言，视觉理解要求粗粒度的高层次表示，而生成任务更偏好细粒度的内在图像特征。

因此，遵循视觉生成中的标准做法 [71, 76]，大多数方法使用向量量化（VQ）模型或变分自编码器（VAE）将视觉输入压缩为离散的标记或连续的潜变量。这些编码器主要经过预训练以保留图像的内在特征用于像素级重建，而不是捕捉视觉语义，从而导致图像理解能力有限。因此，为了获得一个和谐的表示，并在统一的多模态理解和生成中共享视觉编码，需要一种更加集成和适度的方法。

我们从遮挡图像建模（MIM）[2, 34]中汲取灵感，MIM可以通过一个简单的遮挡与重建的预训练任务，有效地鼓励模型开发更丰富的视觉数据语义表示。这种通过生成学习的哲学能够学习平衡的表示，既能够进行生成，又能够进行理解，使其成为在共享编码中调和这些异质任务的有前景的方法。此外，最近成功的遮挡自回归（MAR）[28, 46]建模将MIM扩展到自回归图像生成，进一步证明了基于MIM的范式在这一领域的潜力。它与MLLM中的事实自回归预测范式相一致，使其更适合生成与理解之间的集成协同。

图2：线性探测和特征可视化（使用GradCAM++ [8]）为VQGAN、VAE和MAR模型学习到的表示是否适合作为统一多模态框架中的视觉编码器提供了关键的见解。

受此启发，我们进行初步研究，包括线性探测和特征可视化，以衡量广泛使用的VQGAN和VAE编码器在生成模型中的表示能力与MAR编码器的表现，如图2所示。我们的研究发现，VQGAN和VAE编码器在捕捉高层次语义（如物体概念和属性）方面存在困难，而这些对于有效的视觉理解至关重要。相比之下，MIM训练的MAR编码器实现了竞争性的线性探测准确性，并产生了精确的特征图激活。这验证了我们的假设，即基于MIM的方法能够产生更强大的语义表示，这对于统一生成和理解任务至关重要。

图3：我们提出了Harmon，一个统一的框架，具有共享的MAR编码器，用于图像生成和理解任务。

基于这些见解，本文提出了Harmon，这是一个统一的自回归模型，用于多模态生成和理解，如图3所示。为了在共享编码中协调两个任务的视觉表示，我们提出了一种统一的视觉编码器（基于MAR），它捕捉了粗语义和细粒度特征，并促进了两个任务的一致语义基础。在Harmon中，图像以遮挡自回归方式生成，而文本通过下一个token预测进行回归。

此外，为了将这个视觉编码器与LLM语言空间对齐，我们设计了一个三阶段训练流程，逐步开发统一的多模态生成和理解模型。得益于MIM范式的多功能性，所提出的基于MAR的编码器可以在每个训练阶段针对生成和理解进行彻底优化。

我们在多模态生成和理解基准测试中全面评估了Harmon。对于文本到图像生成，它在GenEval基准测试[32]中超越了所有相似规模的统一方法，该基准测试衡量生成图像与用户指令之间的对齐。Harmon还超越了所有统一模型，在需要世界知识理解的WISE基准测试[61]中表现出色，生成的图像具有更高的视觉质量，在MJHQ30K基准测试[45]中取得了最先进的表现。对于图像理解基准测试，Harmon与采用独立语义编码器进行视觉理解的方法（如Janus [87]和Janus-Pro [15]）具有竞争力，同时大幅超越使用VQ或VAE编码器的方法。

此外，通过共享表示实现的两项任务的协同效应也在我们的实验中得到了体现，在图像生成与图像理解共同训练的情况下，图像生成得到了提升。

2. Related Work

多模态理解：通过将来自语义编码器的视觉信号注入到LLM中，多模态LLM（MLLM）[16, 21, 44, 52, 53, 57, 85, 99]展示了卓越的通用和细粒度图像理解能力。这些语义编码器，包括CLIP [68]和SigLIP [96]，通常通过对比视觉-语言对齐预训练，在此过程中学习全面的视觉概念。尽管这些MLLM具有强大的视觉理解能力，但它们仅限于图像条件下的问答任务，无法生成视觉输出。

图像生成：扩散模型[3, 11, 51, 63, 64, 69–71]已成为图像生成的主流范式，生成基于类别标签或语言描述的高质量视觉内容。通常，扩散过程在VAE的潜在空间[40, 83]中实例化，以便于高效的训练和推理。随着视觉变换器的进步，在自回归生成[26, 58, 76, 93]和遮挡生成模型[1, 5, 6]方面也取得了显著进展。在这些框架中，图像通常通过VQ模型压缩为离散的标记，例如VQGAN [26]。最近，提出了MAR [46]范式，采用编码器-解码器架构，并利用遮挡图像建模[34]进行图像生成。

统一视觉生成与理解：开创性工作[77, 78, 81, 84]通常将最先进的扩散模型和多模态LLM结合起来，通过LLM嵌入提示扩散生成器。这种范式受限于图像生成和文本序列建模之间缺乏深度互动，导致基于指令的生成性能不佳[32]。

此外，一些研究将生成和理解任务统一为下一个token预测[54, 79, 86, 89]，其中VQGAN [26]将图像压缩为离散的标记。也有研究[90, 91, 97, 98]将LLM视为扩散骨干，通过去噪损坏的VAE潜变量进行图像生成，同时为文本回归预测下一个token。这两种框架使用VQGAN或VAE编码图像，VAE作为一种压缩模型设计，从而导致视觉理解能力的下降。

为了解决上述困境，ViLA-U [89]通过在视觉基础模型上学习向量量化，构建了一个统一的视觉塔，并结合对比文本对齐和图像重建目标。然而，它在语义对齐和像素级忠实度之间难以平衡复杂的相互作用。还有一些研究解耦了理解和生成的前向路径。LlamaFusion [74]学习了仅在视觉信号激活时使用的额外模型权重。同样，Janus [15, 87]为这两项任务采用了独立的视觉编码器，即使用VQGAN [26]进行生成，使用SigLIP [96]进行理解。尽管这些方法实现了最先进的性能，但这种临时设计忽视了统一表示的潜力，而统一表示能够促进这两项任务之间更深的跨模态协同。相比之下，我们发现MIM训练的MAR编码器自然地学习到了一个非常适合生成和理解的表示。基于这一见解，我们引入了Harmon，一个采用共享编码器处理两项任务的统一框架。

3. Method

在本节中，我们介绍了Harmon，一个统一的自回归框架，包含一个MAR编码器、一个LLM和一个MAR解码器，如图4所示。为了简洁起见，我们省略了LLM与MAR编码器/解码器之间的连接层。

3.1. Preliminaries

遮挡自回归模型。MAR [46] 是一种用于图像生成的遮挡自回归模型。我们在图2中的初步结果表明，MAR编码器在生成预训练过程中确实捕捉到了视觉概念和语义，而这些对于视觉理解至关重要。这使得它成为一个有效的选择，作为一个编码器在统一的框架中同时处理视觉生成和理解，超越了其原始角色。

在MAR前向传递中，其中 $m$ 个补丁被从图像 $X_{img}$ 中遮挡，图像的高度为 $h$ ，宽度为 $w$ ，编码器 $f_{enc}$ 将 $h w - m$ 个已知的图像补丁 $X_{seen}$ 和 $n$ 个缓冲区嵌入 $X_{buffer}$ 作为输入进行特征提取。

$Z_{enc} = f_{enc}(X_{seen}, X_{buffer}).$

然后，编码器输出的 $Z_{enc}$ 和一组遮挡嵌入 $Z_{mask}$ 被输入到解码器 $f_{enc}$ 中，解码器预测 $m$ 个遮挡的图像补丁

$X_{mask} = f_{dec}(Z_{mask}, Z_{enc}).$

大型语言模型。现代大型语言模型（LLM）通常遵循GPT [4, 66, 67]，采用解码器仅架构，并使用因果注意力。在前向传递中，一系列文本token首先被映射到文本嵌入中，然后输入到LLM $f_{LLM}$ 中。每个token嵌入与LLM的因果注意力中的前置token进行交互，并通过LLM顶部的文本头预测下一个token。

图4：Harmon的整体框架。（a）图像生成以遮挡自回归方式进行。（b）图像理解被表述为图像条件下的文本自回归。MAR编码器在两个任务之间共享。表示缓冲区嵌入，表示遮挡嵌入。

3.2. Text-to-Image Generation

Harmon中的图像生成以遮挡自回归的方式进行，如图4(a)所示。

任务提示：对于文本到图像生成，我们使用以下提示模板来格式化用户指令：“User: Generate an image < caption>\nAssistant:”。< caption>表示图像描述。文本提示被分词并映射到文本嵌入 $Z_{txt}$ ，然后传递给LLM来引导图像生成。在训练过程中，< caption>会随机设置为空10%的数据样本，以启用无分类器引导（CFG）[35]。

编码器到LLM：如式(1)和图4(a)所示，MAR编码器输出 $Z_{enc}$ 包括已见补丁和缓冲区嵌入的图像嵌入。我们将更新的编码器输出 $Z_{enc}$ 提取，并将其与 $m$ 个遮挡嵌入 $Z_{mask}$ 一起输入到MAR解码器 $f_{dec}$ ，然后 $f_{dec}$ 预测遮挡的图像补丁。

$X_{mask} = f_{dec}(Z_{mask}, Z_{enc}').$

由于 $Z_{enc}'$ 与LLM中的文本嵌入进行了交互，因此预测是基于语言提示进行的。

训练目标：我们遵循MAR [46]将遮挡补丁的生成重新参数化为逆扩散过程[36]。因此，预测一个遮挡补丁 $x_{mask} \in X_{mask}$ 的训练损失为：

$\mathcal{L}(x_{mask}, x_{gt}) = \mathbb{E}_{\epsilon,t} \left[ \left\| \epsilon - \epsilon_{\theta}(x_t | t, x_{mask}) \right\|^2 \right].$

这里， $\epsilon$ 是从 $N (0, I)$ 中采样的噪声向量。 $x_t$ 是从 $x_{gt}$ 中添加噪声得到的噪声向量， $t$ 是噪声调度的一个随机采样时间步。噪声估计器 $\epsilon_{\theta}$ 是[46]中定义的一个小型MLP网络。

推理：我们的遮挡自回归生成包含 $K$ 次前向传递，首先从遮挡补丁编号 $m_0 = hw$ 开始，即所有图像补丁都被遮挡，只有缓冲区嵌入被输入到MAR编码器中。我们通过余弦曲线逐渐减少遮挡比率：
$
m_k = hw \cdot \cos\left(\frac{k}{2K} \pi \right).
$
这里， $k$ 表示第 $k$ 次生成步骤。被预测的图像补丁数量是 $m_k - m_{k-1}$ ，在第 $k$ 步中。由于LLM中的注意力是因果的，提示嵌入仅在第一次迭代时传递给LLM，后续步骤则保留键值缓存。此外，我们还遵循了先前的工作[46, 86, 91]，以实施无分类器引导（CFG）[35]。

3.3. Image Understanding

如图4(b)所示，多模态图像理解被表述为基于图像内容的问答，其中文本自回归执行下一个token的预测。

任务提示：我们使用以下提示模板来格式化用户指令：“User:< image>< question>\nAssistant:”。< question>表示与图像相关的问题，< image>是来自MAR编码器 $f_{enc}$ 的输出 $Z_{enc}$ 。

视觉编码：与文本到图像生成过程不同，我们传递所有图像补丁而不进行任何遮挡，并将缓冲区嵌入一起传递给MAR编码器 $f_{enc}$ 。

$Z_{enc} = f_{enc}(X_{img}, X_{buffer}).$

答案生成：编码器输出 $Z_{enc}$ 与提示中的文本嵌入一起被传递给LLM。相应的文本答案由LLM以自回归的方式生成，条件是图像和问题。在训练期间，使用交叉熵损失来监督答案token的预测。

3.4. Training Recipe

训练阶段和相关的数据源在释放Harmon共享编码器的潜力方面起着至关重要的作用。我们将Harmon的训练分为三个阶段，逐步增强模型的生成和理解能力。关于数据源的更多信息可以在附录中找到。

阶段I：视觉-语言对齐。由于MAR编码器/解码器和LLM分别在图像和文本上进行了单模态预训练，因此有必要在大规模的图像-文本对上对这两种模态进行对齐。

具体来说，我们使用来自公共数据集[44, 47, 49, 75]的2200万张带有密集字幕的图像，用于MAR编码器的知识丰富训练，使Harmon能够进行基于语言的图像理解。为了保持MAR的原始生成能力，我们采用ImageNet1K [23]，其中包含120万数据样本，用于类条件生成，将类名作为图像字幕。在这个阶段，只有MAR编码器和解码器是可训练的。

阶段II：全面的多模态训练。在将MAR编码器/解码器与LLM对齐之后，我们利用多样化的问答数据和文本到图像数据来增强生成和理解能力，解锁LLM。具体来说，我们从Infinity-MM [33]中抽取了2000万个样本，并加上来自阶段I的500万密集字幕样本用于多模态理解。对于文本到图像生成，我们收集了来自公共数据集[22, 44, 47, 59, 60, 75]的5000万张图像。这些图像都带有由LMMs [12, 80, 85]生成的密集字幕，这些字幕通过LLM [82]重新编写，形成更简洁的提示，专注于生成。

阶段III：高质量微调。在阶段III中，我们采用更高质量的数据来微调Harmon。对于多模态问答，我们采用LLaVA-OneVision [44]中较小但更平衡的指令调优数据。对于文本到图像生成，我们根据图像大小和美学分数筛选了阶段II中的5000万张图像，其中20%被保留。此外，我们还包括了600万张合成图像[38, 62]，以提高视觉质量。在阶段III中，我们还将图像分辨率从256提升到512，以增强生成和理解能力。