VLM-R³：面向增强多模态链式思维的区域识别、推理与精化

原创已于 2025-07-15 10:38:00 修改 · 530 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#多模态大模型 #强化微调 #GRPO #多模态思维链 #ThinkWithImage #图文交互思考 #调用工具

于 2025-07-15 10:13:42 首次发布

大模型同时被 2 个专栏收录

23 篇文章

订阅专栏

强化微调

8 篇文章

订阅专栏

VLM-R³: Region Recognition, Reasoning, and Refinement for Enhanced Multimodal Chain-of-Thought
机构：北京大学软件工程国家工程研究中心阿里巴巴集团 ZEEKR 智能科技控股有限公司
出版：arxiv’25’05
目前没有开源（250709）

速览

🤔动机
虽然多模态大语言模型借助 CoT 提示在文本推理上取得了显著进展，但它们对视觉输入的利用仍仅限于一次性的静态锚定，无法在推理链中动态、迭代地聚焦和重访关键图像区域，因而难以应对需要细粒度视觉交互（如顺序验证图像细节、跨线索追踪物体状态或理解复杂空间关系）的复杂推理任务。

🤨挑战
要让 MLLM 在推理中“再看一眼”视觉信息，需跨越两大挑战：

区域锚定学习：模型必须在部分文本推理的基础上，学会动态定位并变换（如裁剪、缩放）关键视觉区域；
归因分配：仅凭最终答案的监督无法告诉模型哪些区域选择真正有助于正确推理，难以优化其视觉查询策略。

🤩方法
为应对上述区域锚定学习与归因分配两大挑战，论文提出了两项关键性解决方案：

首先，构建了 Visuo-Lingual Interleaved Rationale (VLIR) 数据集，在多步推理叙述中嵌入显式的视觉区域定位标注、裁剪指令与语义增强提示，使模型在冷启动阶段即能学习动态选择与变换关键区域；
其次，提出了 VLM-R³ 框架，并结合 Region-Conditioned Reinforcement Policy Optimization (R-GRPO) 训练策略，通过将对 VLIR 的监督微调与基于区域条件的强化学习相融合，使模型能够在推理过程中自适应地决定何时何地查看图像、如何处理局部视觉证据，并将这些动态获取的信息无缝整合到其演进的思维链中。
这里感觉可以参考的是动作梯度屏蔽，即在交错的图文序列中，R-GRPO 仅将模型生成的文本推理 token 和 bbox 命令 token 视作动作，并对它们计算策略梯度；所有由环境注入的图像 token 均在梯度计算时被屏蔽。其他的感觉就比较常规了

😮实验
实验上主要是做了与sota大模型的对比，其中也包括一些闭源的（比如GPT-4o等），然后在消融实验那里分别证明了一下交错思维链、用VILR微调和R-GRPO的有效性，不过我感觉从结果上来看，好像数据集提升的性能更大一些，反而是强化微调没有提高多少，后面还做了一个模型注意力的可视化，主要是为了证明本文的模型对图像的注意力是持续的，而纯文本推理的大模型只有在一开始将注意力放在图像，后面就全部都在文本，这样就可能导致模型出现幻觉，不过吐槽一下就是这个图可视化的不容易看懂，不是很直观。

摘要

近年来，基于推理的多模态大语言模型（MLLMs）在生成长文本推理链方面取得了一定的成就。然而，它们在需要动态、迭代地聚焦并重访图像区域以将文本推理精准锚定于视觉证据的复杂任务上仍存在挑战。我们提出了 VLM-R $^3$ （Visual Language Model with Region Recognition and Reasoning）框架，为 MLLM 提供了以下能力：（i）判断何时需要额外的视觉证据，（ii）确定在图像中应锚定（ground）的位置，以及（iii）将相关子图像内容无缝地融入交叉式思维链（chain-of-thought）之中。我们方法的核心是区域条件强化策略优化（Region-Conditioned Reinforcement Policy Optimization，R-GRPO），这是一种训练范式，通过奖励模型选择信息量丰富的区域、制定适当的变换（如裁剪、缩放）并将所得视觉上下文整合到后续推理步骤中来优化模型。为了引导该策略，我们构建了一个规模适中但精心策划的视觉-语言交错推理语料库（Visuo-Lingual Interleaved Rationale，VLIR），为区域选择和文本论证提供逐步监督。在 MathVista、ScienceQA 及其他基准上的大量实验表明，VLM-R $^3$ 在零样本和少样本设置中创造了新的最先进水平，且在要求细微空间推理或精细视觉线索提取的问题上获得了最大的性能提升。

1 引言

多模态大语言模型（MLLMs）近年来已经成为一种强大的范式，展现出在不同模态——主要是视觉和语言——之间理解和生成内容的显著能力[37, 26, 22, 61, 5, 7]。诸如 O1 [36]、QvQ [3] 和 Gemini 2.5 [1] 的模型在 MMMU [62]、MathVista [29] 和 ScienceQA [30] 等多种任务上表现出令人印象深刻的性能。推动它们高级推理能力的一个关键因素是引入思维链（Chain-of-Thought，CoT）提示[55]，该方法能够激发逐步的推理路径，常常带来更准确且可解释的输出。

尽管取得了这些进展，当前 MLLMs 在复杂推理过程中与视觉信息交互的方式仍存在关键局限。大多数现有方法在采用 CoT 时，推理步骤主要局限于文本域，仅在视觉输入上进行一次静态的初始锚定。这一范式在需要在整个推理链中对特定视觉区域进行动态、迭代和细粒度交互的场景中显得不足。如图 1 所示，典型示例包括对图像细节进行顺序假设验证、跨视觉线索追踪物体状态或理解复杂的空间关系——所有这些都需要一种更主动、更自适应的视觉锚定机制。令人鼓舞的是，诸如 O3 [2] 等最近的模型能够将图像分析与文本生成交织进行——为一个新前沿提供了启示：推理不仅仅以图像为条件，而是持续地与进行中的视觉感知和定位交织在一起。
在这里插入图片描述

要构建一个能够在推理过程中“再次查看”的 MLLM，面临两大显著难题：区域锚定学习。模型必须在部分文本推理的基础上，学会聚焦何处并对所锚定的视觉区域进行变换（如裁剪、缩放）。归因分配。仅监督最终答案并不能教会模型所选区域是否真正有助于正确推理，从而难以优化视觉查询策略。

为了弥补这一关键差距，我们做出了两项主要贡献。首先，我们引入了视觉-语言交错推理语料库（Visuo-Lingual Interleaved Rationale，VLIR），这是一个开创性的数据集，精心策划以支持 MLLMs 在交错文本-图像 CoT 推理上的发展。VLIR 提供了显式标注的视觉区域定位、图像裁剪指令和语义增强提示，所有这些都嵌入在多步推理叙述中。其次，在此基础上，我们提出了 VLM-R $^3$ （Visual Language Model with Region Recognition and Reasoning），一个旨在掌握这种复杂推理风格的新型框架。VLM-R $^3$ 使用一种独特策略进行训练，该策略将对 VLIR 数据集的冷启动微调与新颖的区域条件强化策略优化（Region-Conditioned Reinforcement Policy Optimization，R-GRPO）相结合。这使得 VLM-R $^3$ 能够学习何时以及在图像中何处进行查看，如何处理局部视觉证据（例如通过裁剪或请求增强），以及如何将这些动态获取的信息整合到其演进的推理链中。我们在包括 MME [14]、ScienceQA [30] 和 MathVista [29] 在内的多种多模态推理基准上进行的广泛实验表明，VLM-R $^3$ 显著优于现有最先进模型。总之，我们的贡献包括：

引入了 VLIR，这是第一个专为训练和评估 MLLMs 在交错视觉-文本 CoT 推理中进行显式区域级交互而量身定制的基准数据集。
提出了 VLM-R $^3$ 这一新型 MLLM 框架及其相关的 R-GRPO 训练策略，实现了推理过程中动态的视觉区域定位和证据整合。
通过全面的实证验证，VLM-R³ 在具有挑战性的多模态推理任务中表现出卓越性能，并为细粒度的视觉锚定推理树立了新的基准。

2 相关工作

2.1 大语言模型推理

大语言模型中的推理[49, 65, 63, 18]随着思维链（Chain-of-Thought，CoT）提示[48, 55, 23, 54, 34, 40]的出现而显著演进，该方法使模型能够将复杂问题分解为中间步骤，以模拟人类的推理过程。此基础方法已扩展至多种结构，如程序化思维（program-of-thoughts）[10]、表格思维（table-of-thoughts）[19]和树状思维（tree-of-thoughts）[60]，各自在不同推理场景中展现独特优势。近期进展包括 OpenAI 的 O1 [36]，其将强化学习[38, 43, 16]与 CoT 结合，以在无外部指导下优化决策；以及 DeepSeek R1 [12]，该模型通过群体相对策略优化（Group Relative Policy Optimization，GRPO）[45]的纯强化学习实现推理能力的自主演进，同时融入基于规则的奖励，显著提升了复杂推理任务中的表现。

2.2 多模态大语言模型推理

在文本推理模型[36, 6, 12, 51]取得成功后，多模态大语言模型推理研究[64, 56, 42, 33, 39, 28, 27]应运而生，聚焦于高效的多模态思维链结构[57, 52, 50, 20]和高质量训练数据构建方法[13, 46, 4]。主流方法已将文本推理范式扩展到多模态场景，如 Virgo [13] 展示了仅用文本推理数据也能激活部分多模态推理能力；更具结构化的框架包括 LLaVA-CoT [57] 的四阶段推理流程和 MM-Verify [50] 的验证增强方法。然而，这些方法在很大程度上沿用纯文本模型的推理范式，未能充分解决视觉信息处理，导致在视觉密集型推理任务中存在局限。

3 方法

我们提出了一个新框架 VLM-R $^3$ ，旨在执行具有区域锚定的视觉-语言交错推理。本节详细介绍我们方法的各个组成部分，包括用于冷启动监督微调的视觉-语言交错推理语料库（Visuo-Lingual Interleaved Rationale，VLIR）数据集的构建、支持动态视觉锚定的交互式推理流程，以及用于增强推理能力的区域条件强化策略优化（Region-Conditioned Reinforcement Policy Optimization，R-GRPO）策略。

3.1 视觉-语言交错推理语料库（VLIR）数据集

先前的工作（如 Visual CoT [44]）引入了在推理链中结合视觉锚定（即边界框定位）的概念。然而，这些方法通常存在以下局限：（1）缺乏与视觉操作交错的显式语言推理步骤；（2）视觉锚定操作（例如基于边界框的裁剪）是预定义或人工指定的，而非模型动态生成；（3）交互次数受限，通常在给出最终答案前仅选择一次边界框，缺乏多步视觉查询的灵活性。为了解决这些问题，并培养模型基于其持续推理过程自主灵活地执行迭代式视觉检索与裁剪的能力，我们引入了视觉-语言交错推理语料库（VLIR）数据集。该数据集经过精心策划，专门提供了丰富的、将文本推理步骤与显式视觉锚定操作及相应裁剪视觉证据交错呈现的序列。

250709：我去看了一下这个 Visual CoT，他并不是那种显示的在推理过程中给出关注的图像区域，而是隐式的让模型去关注重要的区域，就是引导模型去看提示词中问到的东西，比如下面这个示例，他最终就是给出一个边界框的坐标。

3.1.1 数据构建

VLIR 数据集的构建侧重于需要细粒度空间理解和精确利用视觉线索的场景。我们从多种现有基准中选择数据，以涵盖广泛的视觉推理挑战：

文本/文档理解：TextVQA [47]、DocVQA [32]，用于需要 OCR 和文档结构理解的任务。
通用视觉问答：GQA [17]，用于对视觉场景进行复杂多步推理。
图表与信息图解读：InfographicsVQA [31]，用于理解结构化视觉数据。
空间关系推理：VSR [25]，用于识别和推理对象之间空间关系的任务。

我们利用如 Qwen2.5-VL 72B [8] 等强大 MLLMs，通过精细的提示工程，为来自 GQA 与 TextVQA 等基准的数据点生成交错的图文推理链，这些基准代表了真实世界的问答场景。随后，我们对生成的样本采用拒绝采样策略，仅保留与真实答案一致的样本。

250709：这里没说清楚，是对同一个输入，让模型输出了多个推理答案，然后采用拒绝采样策略筛选正确答案的；还是一个样本就只输出了一个，如果答案与真实答案不符合，这个样本就不要了？

对于那些在原始图像–问题对上直接进行提示工程效果不佳的任务，尤其是涉及详细 OCR 或表格数据解读（如 Visual CoT [44] 的底层数据），我们使用 GPT-4o [35]，并结合源数据集提供的元信息（例如 Visual CoT 的初始边界框）设计定制提示。这使我们能够在这些挑战性领域生成详尽的、逐步交错的推理过程。

3.1.2 数据过滤

为了确保生成的交错推理过程的质量和相关性，我们基于以下准则应用严格的过滤流程：

区域语义单元有效性：每个提议的边界框必须包含一个完整且具有语义意义的视觉单元（例如，可识别的物体、一段文本或图表的特定部分）。为实现自动化，我们使用一个更小的视觉-语言模型，将对应边界框裁剪出的图像作为提示，询问其是否能够确认可识别实体的存在与身份（“你能识别此图像中的内容（具体物体或文字）吗？请以 yes/no 作答。”）。未能确认语义单元有效的样本将被拒绝。
推理的逻辑连贯性与非冗余性：生成的文本推理步骤必须在逻辑上严谨、递进，并能直接促成最终答案，避免出现无关或冗余内容。我们通过提示工程使用强大的纯文本大语言模型（如 DeepSeek V3 [24]）评估每次视觉交互前的文本推理及整体推理路径的逻辑流和相关性。对不符合逻辑或存在填充式推理的样本予以剔除。

3.2 交互式推理流程

VLM-R $^3$ 模型通过一个交互式推理流程执行推理，这使得模型能够在推理过程中动态地选择并整合视觉信息。

该交互过程通过向 VLM-R $^3$ 提供系统指令来启动，指令定义了推理任务和可用的视觉交互工具。该提示包括诸如以下的指令：

首先需要在脑海中思考推理过程，然后提供答案。在思考时，您应该调用“crop”工具（格式：{"bbox_2d": [x1, y1, x2, y2]}），专注于图像中的关键区域。推理过程和答案分别包含在 <think> </think> 和 <answer> </answer> 标签中。

当模型生成一个与指定的 JSON 格式匹配的字符串时，流程会拦截该输出。系统解析坐标 [x1, y1, x2, y2] 并对原始输入图像执行裁剪操作。结果图像被放大并编码为视觉令牌，最终作为新的上下文追加到模型的输入序列中，有效地为模型提供所请求的视觉细节。插入裁剪后的图像后，模型继续生成，可能会涉及生成更多的文本或发出额外的“Crop”命令。此交互式循环将持续，直到模型生成最终答案，届时流程终止。此管道结构使得 VLM-R $^3$ 能够执行多步、自适应的视觉锚定，并通过其不断演进的文本推理进行指导。

3.3 区域条件强化策略优化（R-GRPO）

在固定轨迹上进行标准监督学习难以优化何时（when）及何处（where）获取视觉信息这一复杂的状态依赖策略。我们的方法——区域条件强化策略优化（Region-Conditioned Reinforcement Policy Optimization，R-GRPO）——采用了一个策略优化框架，基于组相对策略优化（Group Relative Policy Optimization，GRPO）[45] 构建。“区域条件”（Region-Conditioned）意味着策略 $\pi_\theta$ 明确地以视觉状态为条件，其中包括动态融合的区域证据。

为了估计每条推理轨迹的优势，我们将其奖励归一化为相对于该组的形式，如下所示：

$\hat{A}^i = \frac{r^i - \mathrm{mean}(\{r^1, r^2, \dots, r^M\})}{\mathrm{std}(\{r^1, r^2, \dots, r^M\})}$

这里， $r^i$ 表示组中第 $i$ 条轨迹的总奖励， $\hat{A}^i$ 则作为相对于组表现的优势函数。

250710：在一次交互中，模型会做出一系列动作（生成文本token、发出bbox命令）并最终得到一个总奖励 $r^i$ ，但是不同轨迹的奖励数值可能差别很大，直接用 $r^i$ 去指导梯度更新不够稳定，所以这里把同一组 $M$ 条轨迹的奖励做归一化，得到归一化优势值，这么做的意义在于，如果某条轨迹的奖励高于组内平均值，就会得到正的优势值，否则为负。这样就把【好/坏】都量化成了同一尺度上更稳定的优势值。

在 R-GRPO 中，一个关键的改动涉及策略梯度的计算以及目标函数中所考虑的动作。在我们交错的图像–文本序列中，部分 token 由模型生成（文本推理、bbox 命令），而其他 token（裁剪图像的表示）由环境注入。策略梯度应当只优化由模型生成的动作的似然。因此，在计算 $∇\log\pi_\theta(a_t\mid s_t)$ 时，我们应用了一个掩码：梯度仅针对当 $a_t$ 是文本 token 或 bbox 命令 token 时的 $a_t$ 进行计算，对于对应注入图像区域的 token 则屏蔽其梯度（当 $a_t$ 时环境注入的图像区域 token 时就屏蔽）。从概念上讲，损失中动作集合 $A_s$ 的求和主要考虑生成有效文本 token 和 bbox 命令的概率，并以它们的优势加权。注入的图像 token 会影响状态 $s_{t+1}$ ，但它们并非我们计算策略梯度的动作 $a_t$ 。

250710：在模型交互中，序列里既有模型主动生成的 token（文本推理、bbox 命令），也有环境注入的 token（裁剪图像后的视觉表示）。关键点在于策略梯度只应该优化模型“自己做”的动作概率，不该去调整那些环境注入部分的概率。

250710：在计算 $∇\log\pi_\theta(a_t\mid s_t)$ 时，对序列中每个时刻 $t$ 看到的 token $a_t$ 做一个掩码，①如果 $a_t$ 时文本 token 或 bbox 命令，就正常计算梯度；②如果 $a_t$ 是注入的图像表示，就把它对应的梯度置零（不更新）。最终效果就是损失里只对“模型可控”的动作概率做优化，环境给的视觉信息只起状态输入的作用，不当作动作学习目标。

250710：提示一下，这里的 ”概率“ 就是指模型在时刻 $t$ 下对某个动作 $a_t$ （即一个token，可能是普通文本token或bbox命令token）生成的条件概率，也就是常说的 ”似然“ ——即 $\pi_\theta(a_t\mid s_t)$ 。策略梯度要最大化（或最小化负的） $\log\pi_\theta(a_t\mid s_t)$ ，也就是在给定状态 $s_t$ 时提高模型生成正确 token 的概率。

随后，我们使用如下定义的损失函数优化策略模型 $\pi_\theta$ ：

$\mathcal{L}_{\mathrm{GRPO}}= -\mathbb{E}_{Q\in D_S}\Biggl[ \sum_{i=1}^{M} \frac{\pi_\theta(c^i\mid Q)} {\pi_\theta(c^i\mid Q)\bigl\rvert_{\mathrm{no\;grad}}} \;\hat{A}^i \;-\; \beta\,D_{KL}\bigl(\pi_\theta\|\pi_{\mathrm{ref}}\bigr) \Biggr]$

其中 $D_S$ 是问题–状态对的数据集， $Q$ 表示具体的问题及当前视觉状态， $c^i$ 是给定 $Q$ 时第 $i$ 条轨迹的生成 token 序列， $\beta$ 是 KL 散度项的系数。求和中的第一项使用归一化优势 $\hat{A}^i$ 对生成序列的似然进行加权，鼓励具有更高相对奖励的序列。

250710：其实这里应该说成是加权每条轨迹的 log-likelihood，因为前向时比值时1，loss看起来就是负的优势加上KL项，反向时由于分母不带梯度就等同于常数看待，分子的话求导数，这样 f’(x)/f(x)=log(f(x))'，即是 $∇\log\pi_\theta(c^i\mid Q)$ 用优势加权。

KL 散度在策略模型与参考模型之间的估计如下 [45] 所示：

$D_{KL}\bigl(\pi_\theta\|\pi_{\mathrm{ref}}\bigr)= \frac{\pi_{\mathrm{ref}}(c^i\mid Q)}{\pi_\theta(c^i\mid Q)} -\log\frac{\pi_{\mathrm{ref}}(c^i\mid Q)}{\pi_\theta(c^i\mid Q)} -1$

250710：KL 散度项在损失中充当正则化，限制新策略与参考策略分布的差异，使得模型在追求更高奖励的同时保持更新保守，防止策略因少量高奖励样本而剧烈偏移，从而保障训练的稳定性。

轨迹的总奖励 $r^i$ 由若干奖励项组成，旨在鼓励所需的 VLM- $R^3$ 行为：

准确性奖励 ( $r_{\mathrm{acc}}$ )：稀疏的终端奖励（正确最终答案时为 1，否则为 0）。
格式一致性奖励 ( $r_{\mathrm{format}}$ )：终端奖励（<answer> 标签格式正确时为 1，否则为 0）。
区域有效性奖励 ( $r_{\mathrm{valid}}$ )：中间奖励（每生成一个语法正确且非冗余的边界框命令给予 0.5，单次 episode 上限为 0.5）。
推理长度奖励 ( $r_{\mathrm{length}}$ )：小额中间奖励（每生成一个字符的推理步骤给予 0.001，单次 episode 上限为 0.25）。

通过优化该目标，R-GRPO 鼓励 VLM 不仅得到正确的最终答案，还生成逻辑性文本推理并策略性地收集必要的视觉证据。

250710：一个episode应该是指一个推理轨迹中，模型可能会多次发出bbox命令，但是我最多就给0.5奖励。

4 实验

4.1 实验设置

我们涵盖了六个公共基准。通用视觉-语言理解在 MME [14] 和 MMU [62] 上进行评估；复杂的数学推理在 MathVista [29] 和 MathVision [53] 上进行；科学问答在 ScienceQA [30] 上进行；文档理解在 DocQA [32] 上进行。我们还评估了 HallucinationBench [15] 上的幻觉率。我们将我们的方法与三类多模态模型进行了比较。第一类包括没有明确推理能力的开源基准，包括 Qwen2.5-VL 7B [8]（我们主要的基准），InternVL2.5-8B [11] 和 LLaVA-Next 8B [21]。第二类包括没有推理功能的闭源系统，代表性模型有 Gemini-2 Flash [1] 和 GPT-4o [35]。第三类包含配备专门推理模块的模型，即 LLaVA-CoT 11B [57]、Mulberry-Qwen2VL 7B [59] 和 R1-onevision 7B [58]。为了探究性能的上限，我们还将我们的结果与两个较大的闭源模型 o1 [36] 进行了比较。

4.2 数据集详情

我们的监督微调实验使用了 VLIR 数据集，该数据集包含 11,810 个样本。如图 2 所示，每张图像的裁剪分布存在显著差异：11,105 张图像包含一个裁剪，607 张图像包含两个裁剪，68 张图像包含三个裁剪，16 张图像包含四个裁剪，8 张图像包含五个裁剪，6 张图像包含六个或七个裁剪（每种 3 张）。这些样本来自五个不同的源数据集：GQA（4,057 个样本）、TextVQA（3,267 个样本）、DocVQA（1,497 个样本）、InfographicsVQA（1,497 个样本）和 VSR（1,492 个样本）。我们根据裁剪的相对大小对其进行分类，分类标准为边界框区域与总图像区域的比例： “非常小”（比例 < 0.05）包含 5,280 个裁剪；“小”（0.05 ≤ 比例 < 0.25）包含 4,043 个裁剪；“中”（0.25 ≤ 比例 < 0.5）包含 1,914 个裁剪；“大”（比例 ≥ 0.5）包含 573 个裁剪。
在这里插入图片描述

4.3 主要结果

我们的 VLM-R $^3$ 模型基于 Qwen2.5-VL 7B 架构，在所有基准测试中始终超越其基础模型，特别是在需要精确视觉推理和细粒度理解的领域，取得了显著的进展。具体来说，我们在 MathVista 上观察到 2.2% 的提升（70.4% 对比 68%），以及在 MathVision 上取得了 5.1% 的显著提升（30.2% 对比 25.1%），这突出了我们方法在数学推理任务中的有效性，尤其是在需要仔细关注视觉细节的任务中。更显著的性能提升出现在 ScienceQA 上，达到了 14.33%（87.90% 对比 73.57%），进一步展示了 VLM-R $^3$ 在科学推理中的优越能力，在这种任务中，动态视觉证据的锚定至关重要。

与其他开源推理聚焦模型（如 Vision-R1 和 Mulberry）相比，VLM-R $^3$ 在 MathVista 上表现出竞争力，且在 HallucinationBench 上超越 Mulberry（62.0% 对比 54.1%），表明我们的方法在避免视觉幻觉方面更为可靠。我们的方法还缩小了与像 Gemini-2 Flash 和 o1 等闭源模型的差距，尽管我们的方法拥有显著更少的参数且架构完全透明。
在这里插入图片描述

4.4 消融实验

4.4.1 交错思维链的有效性

为了隔离我们的交错推理方法的影响，我们进行了一项实验，在该实验中我们保持区域定位能力（边界框）但去除与推理链相关的区域图像。该变体仅依赖于已识别区域的文本描述，而不进行视觉锚定推理步骤。正如表 2 所示，去除交错推理证据会导致所有基准测试中的一致性能下降，特别是在 ScienceQA（下降 12.5%）和 MMU（下降 2.8%）上的下降尤为明显。对于需要细粒度视觉理解的任务，尤其是 ScienceQA 中的科学图表，单纯的文本描述未能捕捉到关键的视觉模式和空间关系。
在这里插入图片描述

250710：这个表看的时候，要从下往上看，不然还以为中间3行是基于第一行下降的，那就太离谱了哈哈。。。

4.4.2 VLIR 微调的有效性

我们的方法利用 VLIR 语料库来启动模型识别信息区域的能力，并将其融入到一致的推理链中。为了评估 VLIR 微调的具体贡献，我们尝试了一种跳过初始化阶段、直接进入 R-GRPO 训练的变体。表 2 中的结果表明，省略 VLIR 微调会导致所有基准测试中的性能下降，特别是在 ScienceQA（下降 15.7%）和 MMU（下降 5.2%）上观察到显著下降。更重要的是，我们观察到消除 VLIR 微调会损害模型的指令跟随能力，导致在边界框规格化方面存在重大缺陷，例如未能按照要求的格式化约定执行。这解释了我们实验结果中性能下降的原因。

4.4.3 R-GRPO 的有效性

为了评估区域条件强化策略优化（R-GRPO）的影响，我们评估了一个变体，该变体仅依赖于使用 VLIR 语料库的监督微调，而不包含后续的强化学习阶段。这使我们能够隔离我们强化学习方法与纯监督学习的具体优势。实验结果表明，使用仅有监督微调的 R-GRPO 会导致所有基准测试中的性能下降，在 ScienceQA（下降 3.28%）和 MathVista（下降 0.7%）中观察到最大下降。这表明 VLIR 微调提供了强有力的基础，强化学习阶段对于优化模型的区域选择和推理过程至关重要，远超通过模仿学习所能实现的。

250710：感觉还是数据集的监督微调起了很大作用，GRPO的作用好像不是那么大的

4.5 讨论

4.5.1 区域锚定精度对推理链的影响

区域锚定的质量（通过边界框的精度表示）在多模态推理能力中起着至关重要的作用。我们的分析研究了不同精度的区域锚定如何影响 VLM-R $^3$ 模型在多个基准上的表现。我们通过控制区域锚定精度在 40% 到 90% 之间，并在三个关键基准（ScienceQA、MathVista 和 MMU）上测量结果来系统地评估模型的性能。通过随机替换或扰动边界框的控制百分比来操控锚定精度。正如图 3 所示，区域锚定精度与模型表现之间存在明显的正相关关系。在所有三个基准上，ScienceQA 表现出最大的改进，性能从 40% 的锚定精度下的 54.1% 提升到 90% 时的 87.9%。MathVista 也显示了类似的上升趋势，从 47.9% 提升到 70.4%，而 MMU 则在表现上获得了更多的增益，从 43.8% 提升到 62.2%。这些结果强调了精确区域锚定对有效多模态推理的重要性，高级推理任务对于锚定质量更为敏感。

在这里插入图片描述

4.5.2 为什么交错推理链结合视觉区域定位有效？

为了理解我们 VLM-R $^3$ 方法的有效性，我们进行了交错推理链与传统文本推理链的比较分析，特别是在视觉区域定位的作用下。图 4 可视化了两种方法在回答相同视觉查询时的注意力分布模式。我们的分析揭示了一个关键见解：在传统方法中，图像通常位于序列的开头，随着推理链的推进，注意力对视觉信息的关注显著下降。如图 4 下部所示，通用大语言模型（MLMs）往往会产生错误推理（例如识别为“菜单板”而不是“伞”），这是因为在扩展的推理过程中丧失了视觉上下文。相比之下，VLM-R $^3$ 通过动态地定位并融入相关视觉信息，在整个推理过程中保持持续的视觉注意力。注意力热图表明，推理链后期生成的token与裁剪后的视觉区域保持强烈的注意力连接。这种基于区域的注意力使得模型能够正确识别蓝色物体为伞，通过明确聚焦于人的背后区域，裁剪并进行详细的检查，从而做出准确的观察。
在这里插入图片描述

250710：这个图看的不是很懂，有没有能看懂的朋友解释一下🤔

5 结论

本文介绍了 VLM-R $^3$ ，一个通过区域识别、推理和细化来执行动态视觉推理的创新框架。通过整合我们的自定义 VLIR 数据集和区域条件强化策略优化（R-GRPO），我们证明了交错的视觉-文本思维链显著超越了传统方法。VLM-R $^3$ 在多个基准测试中取得了最先进的结果，特别是在需要精细空间推理和视觉证据整合的任务中表现出色。我们的工作为开发更加复杂的视觉锚定推理系统开辟了有前景的方向，这些系统能够在多步推理过程中自适应地聚焦于相关区域。

A 实验设置

A.1 流水线设置

A.1.1 模型超参数设置

我们的基础模型是 Qwen2.5VL 7B[8]，它支持输入图像的动态分辨率。在所有实验中，我们将每张图像的像素数限制在至少 3136 像素至最多 1605632 像素。由于边界框的数值与输入图像的像素数相关，因此像素范围的设置需要统一。

A.1.2 缩放比例规则

在我们的流水线中，当选定一个区域进行更近一步的检查（例如，通过“Crop”操作）时，会应用缩放操作。该缩放因子，记为 scale，是根据所选边界框的面积 $A_{bbox}$ 与原始图像的面积 $A_{orig}$ 的相对面积动态确定的。令
$\frac{A_{bbox}}{A_{orig}}$
为该面积比。scale 的计算使用如下分段函数：

$\mathrm{scale} = \begin{cases} 2.0, & \text{if } r < 0.125,\\ 1.0, & \text{if } r \ge 0.5,\\ 2.0 - \displaystyle\frac{r - 0.125}{0.375}, & \text{otherwise}. \end{cases}$

该规则意味着，较小的选定区域（较小的 $r$ ）会被显著放大（最多可达 2.0 倍），而较大的区域（较大的 $r$ ）则放大程度较小，或者如果它们已占据原始图像的大部分，则几乎不放大。中间情况则提供了缩放因子的线性插值。

A.2 有监督微调阶段的训练设置

在有监督微调阶段，我们使用了完整的 VLIR 数据集。实验在 4 块 NVIDIA A100 GPU 上进行，每块 GPU 配备 80 GB 显存，利用 DeepSpeed[41] 提升训练效率。我们使用批量大小为 2，梯度累积步数为 8，学习率为 $2\times10^{-7}$ ，训练 3 个 epoch。在此阶段，视觉编码器和 MLP 投影器保持冻结，仅训练大语言模型（LLM）组件。

A.3 R-GRPO 阶段的训练设置

在 R-GRPO 阶段，我们从 TextVQA[47]、GQA[17]、VSR[25]、DocVQA[32] 及 M $^3$ CoT[9] 数据集中抽取了约 5 000 个数据点。关于 GRPO 公式 (2) 中的超参数，我们将 $M = 5$ ；参考相关研究经验，我们设定 $\beta=0.0$ ，即去除 KL 散度约束。

250710：你这没有KL约束，正文里还放个KL的计算公式，这。。。

我们的 R-GRPO 实验在 6 块 NVIDIA A100 GPU 上进行，每块 GPU 配备 80 GB 显存，同样使用 DeepSpeed[41]。每块设备的批量大小设置为 1，梯度累积步数为 16，学习率为 $1\times10^{-6}$ ，训练持续 300 步。我们采用基于规则的强化学习方法，以精确匹配（exact match）准则判断最终答案的正确性。与有监督微调阶段类似，视觉编码器和 MLP 投影器保持冻结，仅训练 LLM 组件。