【文献阅读】SPHINX: A Mixer of Weights, Visual Embeddings and Image Scales for Multi-modal Large Language

原创已于 2025-06-05 15:14:45 修改 · 1k 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#sphinx #人工智能 #大模型

于 2025-06-02 21:52:50 首次发布

人工智能同时被 3 个专栏收录

40 篇文章

订阅专栏

大模型

36 篇文章

订阅专栏

视觉与图像处理

30 篇文章

订阅专栏

发表时间：13 Nov 2023

ECCV 2024

代码：https://github.com/Alpha-VLLM/LLaMA2-Accessory

SPHINX：用于多模态大型语言模型的权重、视觉嵌入和图像尺度混合器

Ziyi Lin12∗, Dongyang Liu2∗, Renrui Zhang12∗, Peng Gao2∗†‡, Longtian Qiu23∗, Han Xiao2, Han Qiu2, Wenqi Shao2, Keqin Chen2, Jiaming Han12, Siyuan Huang2, Yichi Zhang2, Xuming He3, Yu Qiao2†, and Hongsheng Li124†

作者单位：1 香港中文大学多媒体实验室 2 上海人工智能实验室 3 上海科技大学 4 感知与交互智能有限公司 ∗ 同等贡献 † 同等指导 ‡ 项目负责人 zylin@link.cuhk.edu.hk, gaopeng@pjlab.org.cn, hsli@ee.cuhk.edu.hk

摘要

我们提出了SPHINX，这是一种通用多模态大型语言模型（MLLM），实现了模型权重、视觉嵌入和图像尺度的联合混合。首先，为了增强视觉-语言对齐，我们在预训练期间解冻大型语言模型（LLM），并引入了由真实世界和合成数据训练的LLM之间的权重混合策略。

通过直接集成来自两个领域的权重，混合后的LLM可以高效融合多样化语义并具备良好的鲁棒性。其次，我们建议从各种网络架构、预训练范式和信息粒度中提取全面的视觉嵌入，为语言模型提供更鲁棒的图像表示。

我们进一步提出一种有效策略，旨在更好地捕捉高分辨率图像的细粒度外观。通过混合不同尺度和高分辨率子图像，SPHINX在现有评估基准上实现了卓越的视觉解析和推理性能。基于我们提出的联合混合策略，SPHINX在广泛的应用中展现出 superior 多模态理解能力，尤其在区域级理解、字幕 grounding、文档布局检测和人体姿态估计等高粒度视觉识别能力方面表现突出。

我们希望我们的工作能为未来MLLM研究中联合混合的探索提供启示。代码发布于https://github.com/Alpha-VLLM/LLaMA2-Accessory。

1 引言

自大数据时代以来，大型语言模型（LLMs）取得了巨大进展（7; 61; 62; 87; 108），展示了前所未有的应用场景和泛化能力。尽管取得了惊人的成功，普通LLM仍然只是推理模型，缺乏感知能力限制了它们向具有通用智能的自主代理的进一步演进。

将推理与感知相结合的使命推动了多模态大型语言模型（MLLMs）的研究（41; 50; 106; 109; 112），这类模型不仅能响应人类语言，还能处理自然信号，其中视觉信号是主要研究对象。

早期的MLLM研究（22; 50; 102）专注于粗粒度任务，如图像字幕生成和问答。虽然这在一定程度上实现了视觉指令跟随或视觉对话，但视觉 grounding、关键点检测和指称生成等高粒度视觉识别能力可能为MLLM的发展带来新前景：它们使具身AI中的精确动作等新应用成为可能，并通过更好地访问详细视觉线索，有望提高传统任务的多样性并减少幻觉。

除了细粒度识别，基础MLLM在更广泛领域保持性能同样重要。尽管Shikra（10）等先前工作仅解决细粒度任务，但探索利用更大数据集、更高参数数量、更高分辨率等扩展方法以赋予模型更广泛甚至涌现能力仍具挑战性。

因此，我们提出SPHINX的构建，这是我们提出的具有通用性并强调细粒度视觉识别能力的基础MLLM。与Qwen-VL（4）和MiniGPT-v2（9）等具有相似目标的先前工作相比，我们的框架通过以下独特的扩展技术（简称为混合策略）突出显示：

混合模型权重：特定领域的视觉-语言数据可能包含特殊语义，例如合成字幕（75）与真实世界字幕（76）相比。考虑到直接混合此类数据可能使MLLM混淆，我们引入权重混合策略以有效结合此类领域特定知识。在基于真实世界数据预训练的MLLM基础上，我们在合成数据上对其进行微调，然后将微调后的LLM权重与真实世界权重线性组合。通过这种方式，两种类型的模型不会受到矛盾数据的影响，我们的最终SPHINX可以有效整合来自合成和真实世界领域的知识，实现对不同来源数据集的有效利用。
混合视觉嵌入：为了利用不同编码器的优势，我们建议混合来自各种视觉主干（41; 64; 70）的视觉嵌入，这些主干具有不同的网络架构（CNN vs. ViT）、预训练范式（监督 vs. 自监督）和信息粒度（全局 vs. 局部）。通过在通道和序列维度上混合不同的图像标记，SPHINX获得了更强的视觉表示，并提高了视觉-语言对齐效率。
混合尺度与高分辨率子图像：为了处理细粒度视觉识别所需的高分辨率图像，我们首先将输入的高分辨率图像在空间上划分为多个子图像，并将其下采样为低分辨率图像。然后，我们将所有图像同时输入混合视觉编码器，并连接提取的多个标记组以表示整个高分辨率视觉特征。通过混合不同尺度和子图像的视觉嵌入，我们的SPHINX可以从高分辨率和多尺度图像表示中自适应地探索更细粒度的视觉语义，同时保持编码效率。

通过提出的三重混合策略，SPHINX对LLaMA-2（88）等LLM进行微调，使其成为具有 superior 视觉指令跟随能力的强大MLLM。

我们的模型在各种视觉任务中表现出色，例如以卓越的精度检测不同物体并解析它们的关系，或准确解读复杂图形中的内容。重要的是，SPHINX可以对高分辨率图像实现令人印象深刻的细粒度视觉感知，在MMBench（52）、MME（20）和POPE（45）等广泛评估基准上表现出最先进的性能。

2 相关工作

2.1 大型语言模型（LLMs）

多年来，自然语言处理（NLP）领域取得了显著进展，尤其是随着LLM的出现。以Transformer（89）为基础架构，LLM（61; 62; 72）在建模广泛上下文中的复杂语言模式方面表现出前所未有的性能。

其中，BERT（15）展示了在大规模文本语料库上预训练并在特定任务上微调的优势，为各种基准设定了新标准。OpenAI的GPT系列（61; 62; 71; 72），尤其是GPT-3（7），利用大规模模型扩展的力量，拥有数十亿甚至数万亿参数。

为了获得更好的指令跟随能力，InstructGPT（65）和ChatGPT（61）在开放域对话任务中表现出卓越的流畅性和通用性，从文本生成到问答不等。最近，基于LLaMA（87）和LLaMA-2（88）的指令微调作为社区中的开源LLM广受欢迎。

其中，Alpaca（86）和LLaMA-Adapter（106）分别采用全参数和参数高效微调来获得良好的指令跟随LLM。Vicuna（12）和GPT-4-LLM（67）进一步展示了高质量指令数据集带来的改进。其他工作还将LLM扩展到数学问题解决（90; 111）、视觉模型系统（96; 101）和开放世界识别（107; 113）。在本文中，我们基于LLaMA-2（88）的 superior 语言理解能力和LLaMA-Adapter系列（22; 106）的指令微调经验开发了SPHINX，引入三重混合器来扩展指令跟随LLM对多模态输入的能力上限。

2.2 多模态大型语言模型（MLLMs）

除了语言指令跟随，许多工作致力于向LLM注入多模态条件以实现更广泛的应用场景。作为早期尝试，VisualGPT（8）和BLIP系列（14; 41; 42）表明将LLM与视觉输入对齐用于图像字幕生成和问答的潜力。

Flamingo（3）和Kosmos-1（32）进一步在图像-文本交错上下文中展示了有希望的多模态理解性能。随着大规模预训练和模型规模扩大，GPT-4（62）和Bard（24）在跨多种多模态任务的视觉-语言理解和推理方面均展现出卓越能力。

与此同时，一系列工作提出将LLaMA与视觉模态对齐以实现高级视觉指令跟随能力。LLaVA（50）和MiniGPT-4（112）利用简单的投影层将视觉编码器（41; 70）与LLM连接。LLaMA-Adapter V2（22）引入零初始化注意力机制以进行高效视觉指令微调，而mPLUG-Owl（102）采用精心设计的中间网络进行跨模态对齐。

对于更多模态输入，ImageBind-LLM（28）和PandaGPT（83）在ImageBind（23）的引导下进一步融入音频和视频条件。此外，最近的MLLM还扩展到区域级解析（10; 68）、上下文学习（37; 38）、任意图像分辨率（6）、文本到图像生成（16; 93）和3D问答（25; 30; 98）。

与先前工作不同，我们的SPHINX针对图像条件MLLM，提出三重混合器（即模型权重、调优任务和视觉嵌入），实现多模态学习的 superior 泛化能力。

2.3 权重插值

尽管神经网络通常已知具有高度非线性（40），但在某些条件下，它们在几种情况下通过线性插值权重取得了令人惊讶的好结果，包括性能更高的单任务模型（11; 95）、任务插值（31; 97; 100）、联邦或低通信分布式训练（19; 43; 59）。一些近期工作（2; 80; 84）也在MLLM上下文中研究了权重混合。在这些工作的基础上，我们进一步展示了图像字幕预训练模型的跨域权重混合效果，以及这些优势在进一步的特定任务微调后如何持续存在。

2.4 高分辨率视觉嵌入

细粒度视觉识别任务（如检测和分割）传统上利用更高分辨率的图像特征来捕捉详细信息。卷积神经网络（CNNs）自然可扩展到高分辨率输入（53），因为卷积操作本质上支持不同的输入尺寸，而对于最近的基于Transformer的视觉主干，扩展输入分辨率通常通过插值位置嵌入（18）实现。

还有专门设计用于获取高分辨率特征图的网络组件，例如（44; 46; 103; 110）。与那些基于模型修改的方法不同，我们的混合尺度解决方案转而探索使用微调的大型语言模型来融合来自图像多个部分的视觉嵌入，同时保持视觉编码器本身不变。

通过这种放大机制，我们的框架在捕获细粒度视觉线索的同时，以与架构无关的方式保留了视觉编码器的能力。有趣的是，最近发布的GPT-4V API（63）显示出图像分辨率与视觉标记数量之间的类似对应关系。

3 SPHINX

在本节中，我们介绍通用MLLM SPHINX，3.1节概述模型，3.2节介绍模型权重和视觉嵌入的联合混合，3.3节介绍高分辨率子图像标记的混合，最后在3.4节介绍SPHINX的几个扩展应用。

3.1 模型概述

SPHINX模型由LLM（如LLaMA-2（88））、混合视觉编码器以及将视觉编码器输出连接到语言模型输入的线性投影组成。对于包含图像输入的序列，视觉标记从视觉编码器中提取，投影到LM输入空间，然后连接到序列的开头。没有图像输入的序列处理方式与纯语言LLM相同。

我们采用两阶段训练范式：第一阶段为视觉-语言对齐的预训练，第二阶段为视觉指令跟随学习的微调。在两个阶段中，LM参数与用于视觉-语言特征对齐的线性层一起进行全量微调，但视觉编码器本身保持冻结。

3.2 预训练：视觉嵌入和模型权重的联合混合

SPHINX 多模态大模型 的核心混合策略示意图，分为 (a) 嵌入混合（Embedding Mix） 和 (b) 权重混合（Weight Mix） 两部分，解释如下：

(a) 嵌入混合（Embedding Mix）

输入场景：覆盖视觉问答（VQA）、区域识别（REC/REG）、光学字符识别（OCR）、文档解析（PDF）等多模态任务。
视觉编码器混合：
- CLIP - ViT：基于 ViT（Vision Transformer，2020 年提出）的监督式视觉编码器，擅长从图像中提取与文本对齐的细粒度特征，用于跨模态匹配。
- CLIP - ConvNeXt：结合 ConvNeXt（2022 年提出，改进卷积神经网络）的监督式编码器，补充 CNN 对局部细节的捕捉能力。
- DINOv2 - ViT：基于 ViT 的自监督编码器（2023 年提出），无需文本标注即可学习图像特征，增强模型对通用视觉模式的理解。
- Q - Former：来自 BLIP 系列（2022 年提出），用于提取图像全局特征，压缩视觉信息并与语言模型对齐。
特征融合：
- 先通过 通道拼接（Channel Concatenate） 整合不同编码器的特征，再经线性投影（Proj₂）处理；
- 最后通过 序列拼接（Sequence Concatenate） 融合全局（Global）与局部（Local）特征，为语言模型提供多维度视觉输入。

(b) 权重混合（Weight Mix）

双域训练：
- 先在 真实世界数据（Real - world Domains） 中初始化并预训练语言模型（LLM），学习通用视觉 - 语言对齐能力；
- 再在 合成数据（Synthetic Domains） 中微调 LLM，注入特定场景知识（如合成字幕语义）。
权重融合：通过线性混合（Mix）两种训练得到的 LLM 权重，让模型同时保留真实场景的鲁棒性和合成数据的细粒度语义，最终输出适配多模态任务的响应（Response）。

关键模型简介

ViT（Vision Transformer）：2020 年提出，用 Transformer 处理图像的经典架构，将图像分块后用自注意力提取全局特征，推动视觉 - 语言跨模态融合发展。
ConvNeXt：2022 年提出，优化卷积神经网络（CNN）结构，让 CNN 在大模型时代重新具备竞争力，补充 ViT 对局部细节的捕捉。
DINOv2：2023 年提出，自监督视觉模型，无需文本标注即可学习图像特征，降低多模态模型对人工标注数据的依赖。
Q - Former：2022 年随 BLIP 模型提出，作为 “视觉 - 语言桥接器”，压缩图像特征并与语言模型高效对齐，简化多模态融合流程。
SPHINX：文中提出的多模态大模型，通过 “嵌入混合 + 权重混合” 策略，强化视觉细粒度识别与跨模态对齐，适配多场景任务。

这些组件共同支撑 SPHINX 实现 “多编码器互补 + 双域知识融合”，让模型在视觉问答、区域识别等任务中更精准理解和响应。

预训练阶段（或阶段1）涉及两种混合：权重混合和视觉嵌入混合，如图2所示。由于预训练数据集是弱标注的图像-字幕对，其中文本信息包含的细节较少，因此我们在此阶段不使用高分辨率图像，从而绕过尺度混合。

3.2.1 不同领域的混合模型权重

不同领域的视觉-语言数据可能表现出不同特征：例如，LAION-400M（76）等网络爬取的字幕往往多样化但噪声大，而LAION-COCO（75）等合成字幕往往连贯但词汇量相对有限。我们提出特定领域微调LLM的权重混合策略，以整合来自真实世界和合成数据的各自知识。

我们首先利用最常见的领域数据（LAION-400M（76））进行预训练，赋予MLLM基本的视觉理解能力。然后，我们将此类预训练模型视为初始检查点，在合成领域（如LAION-COCO（75））上进一步微调LLM。

最后，为了利用最佳数据领域，我们直接对两个LLM的权重进行加权混合以实现语义聚合。具体而言，我们将基础LLM的参数表示为\(\theta_{real}\)，合成数据微调后的参数表示为\(\theta_{syn}\)。

混合过程公式化为 \(\theta_{mix}=\beta \cdot \theta_{real}+(1-\beta) \cdot \theta_{syn},\) 其中β表示混合系数，\(\theta_{mix}\)表示聚合语义后的混合LLM权重。

与融合不同领域数据进行联合预训练相比，我们的权重混合策略可以鼓励每个MLLM更好地学习领域独特知识，并对任何新数据领域展现出灵活的可扩展性。

3.2.2 用于视觉编码的混合嵌入

为了从不同方面捕捉鲁棒的视觉表示，我们建议集成多种视觉主干进行图像编码。选择具有不同特征的视觉主干如下：

1）不同网络架构。由于CNN（29）和ViT（18）主要聚合不同类型的视觉外观（即相邻依赖和长程交互），我们分别采用具有ConvNeXt（94）和ViT图像编码器的CLIP（70）模型。CLIP模型可以看这篇

【文献阅读】Learning Transferable Visual Models From Natural Language Supervision-CSDN博客

2）不同预训练范式。监督训练可以从文本字幕或类别标签中施加显式语义信息，而自监督学习则迫使模型探索隐式前置任务信号。因此，我们进一步采用DINOv2（64）自监督的ViT以及文本监督的视觉编码器CLIP。

3）不同信息粒度。上述视觉编码器均在补丁级别生成视觉标记。为了更好地捕捉全局特征，我们还采用Q-Former（41）通过从全局上下文中查询来总结视觉嵌入。在上述所有编码之后，我们首先在通道维度上连接补丁级视觉标记。

通道级连接允许空间对应特征之间更好的对齐，并保持标记数量与视觉编码器数量一致。然后，通过使用两个投影层进行维度对齐，我们在空间维度上连接Q-Former和其他补丁级特征的表示。获得的图像标记直接放置在语言指令前面，为语言指令提供视觉上下文。

3.3 微调：混合尺度与高分辨率子图像

在微调阶段（或阶段2训练），阶段1的模型将适应指令跟随以及高分辨率图像识别。阶段2引入尺度混合以处理高分辨率输入图像，这对细粒度视觉任务至关重要，并将在本节详细阐述。

3.3.1 混合尺度与高分辨率子图像

最先进的开源MLLM（9; 10; 22; 41; 50; 68）工作在所有训练阶段均采用冻结的图像编码器，以保留预训练的视觉语义。因此，MLLM的图像分辨率通常设置为224×224，严重阻碍了它们在细粒度视觉感知（尤其是区域级grounding和描述）中的效果。

在我们的SPHINX中，我们将视觉嵌入的混合扩展到更多尺度和高分辨率子图像，实现高效的高分辨率图像编码。对于输入的高分辨率图像（如448×448），我们构建五张对应的224×224图像，并将它们作为独立图像输入我们的混合视觉编码器。

具体而言，我们首先将输入图像下采样到224×224作为抽象表示，还将输入图像下采样到448×448并从448×448图像的四个角裁剪四张224×224子图像，这些子图像保留了详细的视觉信息。通过这种方式，我们使MLLM不仅能够利用224×224位置编码捕捉细粒度视觉外观，还能实现良好的计算效率。

之后，五组图像标记被编码并连接成一个长序列以输入LLM，其中第一组编码全局语义，其他四组记录细粒度局部特征。重要的是，由于不同补丁的图像标记不会通过视觉编码器进行交互，它们被迫在LLM内进行交互以获取完整的视觉信息。

这种策略反过来促使LLM解析视觉条件内的关系以实现更好的跨模态学习。从这个角度来看，我们的SPHINX可以被视为类似于ViT（18）的新范式，其中混合视觉编码器充当补丁嵌入层，而LLM扮演补丁交互的视觉解码器角色。在需要更高分辨率的视觉理解任务上，SPHINX通过混合尺度和高分辨率子图像的视觉表示实现了显著改进。

3.3.2 与缩放视觉编码器输入的比较

扩大 MLLM 输入分辨率的先前标准方法是扩大视觉编码器本身的输入（例如，通过 ViT 的位置嵌入插值）并使视觉编码器可训练（4; 9）。

与视觉编码器微调相比，我们认为当视觉编码器较大或如我们的情况包含多个模型时，基于 LLM 的补丁融合是更具可扩展性的选择，因为

（i）视觉编码器微调速度可能较慢，因为相同长度的序列通过视觉编码器反向传播的成本可能与通过 LM 反向传播相当，

（ii）视觉编码器微调可能不稳定，因为不同的视觉主干由于其构建方式的巨大差异可能需要不同的调优配置（17）。

因此，我们最终发现，制定一个可训练插值视觉编码器的训练方案以达到与我们的固定视觉编码器方法相同的性能，成本高得令人望而却步。

3.3.3 效率

混合尺度在训练期间仅产生 5% 的开销（SPHINX-1k 与 SPHINX 相比），因为（i）我们将混合尺度训练限制在阶段 2，而阶段 2 本身在总训练时间中所占比例小于阶段 1，（ii）高分辨率训练图像通常与较长的文本配对，进一步降低了开销在总训练成本中的比例。

我们还在实际硬件上测量了推理成本：在启用闪存解码的 A100 GPU 上，生成一个不含混合尺度的 200 标记段落需要 29GB 内存和 5.2 秒，而使用混合尺度生成需要 33GB 和 5.5 秒。内存和时间开销是适度的，因为（i）内存主要由与分辨率无关的 LLM 参数主导，（ii）处理图像标记是一个预填充过程，比解码生成过程更好地利用 GPU 计算核心。

由于视觉编码器是冻结的，并且与语言模型（13B 参数）相比要小得多（总共 3B 参数），我们发现除了推理时的内存使用（最多 6GB，在大多数现代 GPU 上是可管理的）外，混合视觉编码器带来的开销可以忽略不计。

3.4 SPHINX 的扩展

凭借强大而通用的多模态理解能力，SPHINX 模型可以与其他视觉模型集成以处理更具挑战性的任务，包括使用 SAM（35）进行语言指称分割、使用 LaMa（85）进行图像修复以及使用 Stable Diffusion（73）进行图像编辑。我们还探索了将 SPHINX 作为监督学习器，例如在 ImageNet-1k（74）上进行全数据微调。详细信息可在补充材料中找到。

4 实验

4.1 实现细节

我们在本节中提供重要的训练和评估细节。更多信息可在补充材料中找到。

4.1.1 预训练数据集

我们使用两个图像字幕数据集 LAION-400M（76）和 LAION-COCO（75）进行多模态对齐。由于我们对语言模型主干进行长步骤的全量微调，我们还使用纯文本数据集 RefinedWeb（66）进行联合训练，以避免因灾难性遗忘而损害其文本推理能力。

4.1.2 预训练配置

在预训练阶段，我们微调大型语言模型的权重和随机初始化的视觉投影，视觉编码器保持冻结。由于 LAION 数据集中的网络爬取字幕相对粗糙，我们在预训练阶段仅使用低分辨率视图。

4.1.3 微调数据集

在多任务微调阶段，我们的目标是使 MLLM 具备下游任务的通用需求。基于先前研究（10; 14; 49; 50; 112）的见解，我们纳入了 LLaVA（50）和 ShareGPT（79）等指令跟随数据，使模型接触需要显式指令的任务。对于通用视觉问答（VQA），我们利用 VQAv2（1）和 GQA（33）等数据集。将范围扩展到域外知识，我们集成了 OKVQA（58）和 A-OKVQA（77）等数据集，为模型提供训练数据之外的信息。

光学字符识别（OCR）数据集，如 OCRVQA（60）和 TextCaps（81），用于提高 SPHINX 的文本理解能力。我们引入了丰富的通用物体检测和姿态估计数据集，如 COCO（47）和 LVIS（26），以激发模型的定位、分类和人体姿态估计能力。

为了解决 grounding 任务，我们纳入了 RefCOCO（34）和 VG（36）数据集，训练模型处理指称物体定位。此外，来自 Flickr30k（69）的 Grounding Caption 数据集进一步细化了图像区域上下文中描述的理解。我们通过将所有数据集转换为多轮对话格式来简化训练。

4.1.4 微调配置

训练和冻结的网络组件与预训练阶段相同。训练数据按照其自然频率从混合数据集中采样，即从某个数据集采样的机会与其原始大小成比例。

4.1.5 模型变体定义

我们主要使用 3 种模型变体进行实验：SPHINX、SPHINX-1k 和 SPHINX-2k，它们分别接受分辨率越来越高的图像作为输入。相关细节列于补充材料中。除非另有说明，所有模型均使用 LLaMA-2-13B（88）作为语言模型主干，结合 4 个视觉编码器后总参数约为 16B。

4.1.6 评估提示设计

在模型评估中，我们优先考虑与每个基准所需的输出格式对齐。为此，我们针对需要长答案、短答案和多项选择响应的基准采用不同的提示。详细信息在补充材料中提供。这种方法确保我们的模型能够处理多样化的场景。

4.2 模型评估

我们对 SPHINX 进行了全面评估，并展示了多个基准的结果。我们的评估包括定量指标（本节）和定性评估（见补充材料），提供了对我们 VLM 模型性能的全面理解。

4.2.1 多模态大型语言模型基准

这里的POPE是一个object hallucination evaluation approach called POPE，是这篇《Evaluating Object Hallucination in Large Vision-Language Models》里的。论文表格里确实有

我们在最近提出的 MLLM 基准上测试我们的模型，以全面评估模型的特性。如表 1 所示，SPHINX 在 11 个 MLLM 基准中的 7 个上取得了新的最先进性能。此外，SPHINX 和 SPHINX-1k 在 POPE 上的差距表明，高分辨率子图像的引入显著缓解了视觉幻觉问题。

4.2.2 视觉问答

我们还在表 2 中的各种经典视觉问答（VQA）基准上评估了我们的模型。SPHINX 在所有基准上实现了可比结果。值得注意的是，SPHINX-1k 和 SPHINX-2k 在需要细粒度视觉信息的 VQAv2 和文本导向 VQA 上显著优于 SPHINX，展示了我们的尺度混合方法在不依赖专门针对高分辨率图像训练的视觉编码器的情况下实现高分辨率的有效性。

尽管 SPHINX 在文本导向 VQA 上的性能超过了 BLIP-2 和 InstructBLIP 等强基线，但落后于 Qwen-VL-7B，我们推测这是由于缺乏文本相关的预训练数据。未来引入更多此类数据集进行训练可能解决该问题。

4.2.3 视觉 Grounding

表 3 在使用 RefCOCO（34）、RefCOCO+（57）和 RefCOCOg（57）数据集的指称理解（REC）基准上评估了 SPHINX。SPHINX 超过了大多数最先进的模型，包括专家模型 G-DINO-L（51）和其他视觉 - 语言通用模型。

与同样利用大型语言模型进行视觉理解的近期强基线 Qwen-VL-7B（4）相比，我们的模型在所有分割上仍以较大优势取得更好的结果。此外，SPHINX-1k 和 SPHINX-2k 允许使用高分辨率输入图像，导致比 SPHINX 的连续改进，并缩小了与采用更大输入图像尺寸的强专家模型 UNINEXT 的差距。这些结果展示了 SPHINX 在视觉 grounding 方面的竞争能力。

4.3 消融研究

4.3.1 图像 - 文本联合预训练的影响

图 4 显示了除图像 - 字幕数据集（即 LAION-400M）外，与纯文本数据集（即 RefinedWeb）联合训练的效果。作为比较，我们进行了仅使用 LAION-400M 进行训练的实验，并观察文本生成损失和图像字幕损失，作为其文本和图像建模能力的度量。如果模型未使用 RefinedWeb 进行训练，文本生成损失会逐渐增加，表明我们的联合训练方案在适应跨模态理解的同时，有效保留了文本推理能力。

4.3.2 混合视觉嵌入的影响

为了验证视觉嵌入混合的有效性，我们在采用不同视觉编码器组合的 SPHINX 上进行了实验。结果如表 4 所示。有趣的是，混合编码器在不同类型的任务上表现出不同的行为：所有图像编码器的混合在 VQA 基准上并不稳定地优于其子集。

我们推测这是因为某些数据集对于某些编码器来说要么已饱和，要么属于域外数据，而我们注意到，与仅使用全局特征（我们案例中的 Q-Former）相比，编码器混合在视觉 grounding 任务上有巨大增益，证明了空间结构特征对此类细粒度任务的重要性。

我们还观察到，DINOv2 作为自监督编码器，与其余基于图像 - 文本的编码器互补，往往在视觉 grounding 任务上给出更好的结果。由于添加视觉编码器带来的开销可以忽略不计（如 3.3 节分析），我们默认选择使用所有编码器，因为它们在大多数测试中获得最佳性能。

4.3.3 混合尺度的影响

为了深入了解我们的混合尺度策略，我们使用 SPHINX-1k 进行多任务微调，但移除低分辨率视图或子图像，以观察它们对各种基准的各自影响。表 5 中的结果展示了两种视图的重要性：两者的组合在大多数基准上取得最佳结果。

我们的观察还强调了低分辨率视图的关键作用：仅使用子图像时，尽管输入序列更长，模型在 MME 和指称理解上的表现仍低于 SPHINX 基线。这强调了低分辨率视图作为全局表示的重要性，它有助于将子图像中捕捉到的详细信息粘合在一起。

5 结论

在本文中，我们提出了 SPHINX，这是一种具有多用途视觉指令跟随能力的通用多模态大型语言模型（MLLM）。在我们的 MLLM 中，我们引入了三个不同方面的联合混合：由真实世界和合成数据预训练的 LLM 模型权重、来自不同类型视觉主干的视觉嵌入，以及具有子图像嵌入的多尺度图像视图。

通过我们提出的三重混合策略，SPHINX 在广泛的多模态评估基准上实现了令人印象深刻的性能，并可以作为强大的视觉通用模型来处理物体检测、区域级字幕生成和人体姿态估计等任务。我们的 MLLM 还可以与其他视觉基础模型集成以实现更广泛的功能，例如使用 SAM（35）进行语言指称分割和使用 Stable Diffusion（73）进行图像编辑。