摘要:在视觉语言建模领域,评判模型(critic models)通常被训练用于评估输出结果——赋予标量分数或成对偏好排序——而非生成回复。这种与生成回复的策略模型(policy models)的分工界限如此分明,以至于评判模型极少被考虑直接用于策略决策。在本研究中,我们挑战了这一传统观念。我们提议将带有偏好标签的评判数据集重新组织为可验证的训练信号,并直接在基础生成模型上进行强化学习,从而打造出LLaVA-Critic-R1——一款经训练可优化偏好判断且保留完整生成能力的多模态评判模型。令人惊讶的是,LLaVA-Critic-R1不仅成为了一款表现卓越的评判模型,还展现出强大的策略模型竞争力——在26个视觉推理与理解基准测试中,其表现与使用领域内数据训练的专业推理视觉语言模型(VLMs)相当或更优,较其基础模型(Qwen-2.5-VL-7B)平均提升了5.7%。将这一方法扩展至现有的强大推理视觉语言模型,我们得到了LLaVA-Critic-R1+,该模型在保持评判质量的同时,进一步提升了策略性能,在70亿参数规模下于MMMU基准测试中达到了71.9的当前最优(SoTA)表现。最后,我们发现增强的评判能力还有益于推理过程:在测试时应用自我评判机制,无需额外训练即可在五个代表性推理任务上平均提升13.8%的性能。我们的研究结果表明,基于评判数据进行强化学习训练可以生成一个在评估和生成方面均表现出色的统一模型,为构建可扩展、自我改进的多模态系统提供了一条简单途径。Huggingface链接:Paper page,论文链接:2509.00676
研究背景和目的
研究背景:
在人工智能领域,视觉语言模型(VLMs)已经取得了显著进展,广泛应用于图像描述、视觉问答以及复杂的多模态推理任务中。然而,传统的VLMs研究主要聚焦于策略模型(Policy Models)的训练,这些模型负责生成响应,而评判模型(Critic Models)则通常被用来评估这些响应的质量,通过分配标量分数或进行成对偏好判断。评判模型与策略模型的分离训练模式在VLMs领域中根深蒂固,评判模型很少被直接用于策略生成。
随着VLMs应用场景的复杂化,单一功能的模型已难以满足实际需求。例如,在自动驾驶、智能家居、医疗辅助等领域,模型不仅需要准确理解并执行指令,还需具备自我评估与改进的能力。传统的评判模型主要关注于评估策略模型的输出,而忽视了评判模型自身在策略生成中的潜力。因此,如何有效利用评判模型来提升策略模型的性能,成为了一个亟待解决的问题。
研究目的:
本研究旨在挑战传统VLMs中评判模型与策略模型分离训练的范式,提出一种新的训练方法,将评判数据重新组织为可验证的训练信号,并通过强化学习直接在基础生成模型上训练多模态评判模型LLaVA-Critic-R1。该研究的主要目的包括:
- 验证评判模型在策略生成中的潜力:通过强化学习训练,使评判模型不仅能够评估响应质量,还能直接生成高质量的响应,从而成为一个兼具评判和策略功能的统一模型。
- 提升模型在多模态推理任务中的性能:通过在多个视觉推理和理解基准测试上的评估,验证LLaVA-Critic-R1模型相对于基线模型和其他专业推理VLMs的优势。
- 探索评判训练对模型性能的影响:分析评判训练如何同时提升模型的评判和策略能力,以及在测试时自我评判对模型性能的进一步提升作用。
研究方法
1. 数据集准备:
本研究使用了LLaVA-Critic数据集,该数据集包含大约40,000个实例,这些实例是从VLFeedback、RLHF和RLHF-V等来源收集的。每个实例包括一个自然图像、一个相关问题、两个由不同视觉语言模型生成的候选响应,以及一个由GPT生成的偏好标签,指示哪个响应更好或两者是否同样好。此外,还使用了由GPT生成的长链推理(Long-CoT)理由,围绕五个明确的评估指标构建。
2. 评判数据重构:
为了避免知识蒸馏偏差并鼓励模型自主推理,研究剥离了GPT的评价标准和理由,仅保留图像、问题和两个响应。最终的RL评判提示要求模型决定哪个响应更好或表示两者同样好,并以机器可验证的格式生成决策。
3. 强化学习训练:
采用Group Relative Policy Optimization (GRPO)作为训练目标,直接在基础模型Qwen-2.5-VL-7B上进行强化微调。奖励信号由偏好奖励(r_pref)和格式奖励(r_format)组成,前者基于预测偏好与真实偏好的匹配程度,后者鼓励模型遵循特定输出格式。
4. 基线模型:
使用Qwen-2.5-VL-7B作为基线模型,并与四个基于Qwen-2.5-VL-7B的强推理VLMs进行比较,包括ThinkLite-VL-7B、Vision-R1-7B、MM-Eureka-7B和VL-Rethinker-7B。
5. 实验设置:
所有模型在标准化思考模板下进行评估,以确保一致性和公平比较。除了基线模型Qwen-2.5-VL-7B外,其他模型均使用思考模板生成长链推理以增强性能。
研究结果
**1. 基准模型性能比较:
LLaVA-Critic-R1在多个视觉推理和理解基准测试中展示了显著的竞争优势**:
- 在26个视觉推理任务上,LLaVA-Critic-R1不仅在评判别个基准模型上显著优于还在多个视觉推理任务上显著优于基线模型,平均提高了5.7%,表明评判训练可以显著提升模型的评判能力,使其在多个基准测试中超越基线模型(Qwen-2.5-VL-7B)。此外,应用评判训练后的LLaVA-Critic-R1+在多个基准上进一步提升了策略性能,且在不牺牲评判训练的情况下下保持了评判能力,平均提高了7.1%。
2. 评判评判能力验证:
- 评判与策略能力的双重角色:
LLaVA-Critic-R1不仅作为评判模型,展示了强大的评判判能力,还在26个基准测试中平均提高了5.7%的基准测试上匹配配了成26个视觉推理任务和5个个代表性任务上显著优于基线模型,表明测试时自我评判(Self-Critic)缩带来的性能提升。
3. 评判训练增强: - 测试时自我评判缩放策略,验证了评判训练带来的改进增强了模型的内在评判能力。在没有额外训练的情况下,应用自我评判训练显著提升了基础模型的性能。
4. 4. 增强推理能力的验证:
通过对比强化学习前后不同模型的推理过程,发现评判训练后的模型在视觉感知和视觉定位任务上表现出不同的推理行为,验证了评判训练带来的增强效果。
- 5. 多模态感知与视觉感知:
评判训练增强了模型的视觉感知能力,可能通过强制推理模板训练,模型学会了严格遵循“think-then-answer”格式,增强了模型的结构化推理能力。
-6. 视觉奖励与格式奖励的协同作用:
强化格式奖励确保了模型生成符合特定格式的输出,鼓励模型自主决定响应,并通过格式奖励引导模型学习评判标准。
研究局限
1. 数据集偏差:
尽管本研究通过重新组织评判数据,剥离了GPT生成的评价标准,可能引入了模型对外部判断的依赖,影响评判模型的评判能力。。
2. Record-keeping与生成多样性:
本研究主要关注于评判训练对策略性能的影响,且数据集规模相对为40,000,可能不足以全面反映不同基础模型或不同推理数据集上的性能差异。
3. 观测样本有限:
主要使用AI生成的偏好标签数据,可能无法完全捕捉人类评价中的细微差别,影响评判训练的效果。它们可能包含固定答案或模型偏差。
4. 自我评判与策略训练的协同作用:
评判训练不仅提升了模型的评判能力,还提升了策略能力。然而,评判训练和策略训练的协同作用可能引入新的偏差。
5. 训练策略有效性:
虽然评判训练显著提升了模型的评判和策略能力,但其效果可能受限于评判数据规模和模型多样性。
未来研究方向
1. 探索评判与策略训练的新范式:
未来的研究可以以评判训练为核心,探索评判模型在策略生成中的潜力,为开发具有自我改进和自我提升能力的统一模型提供简单路径。
2. 扩展评判数据集的应用范围:
未来研究可以进一步探索评判数据集的构建方法,纳入更多基线模型和更大规模的数据集,以全面评估评判训练练在策略生成中的作用。
3. 开发更高效的测试时自我评判技术:
探索更高效的测试时自我评判判技术,如“Best-of-128”或“Best-of-128"等,优化测试模型的自我泛化能力。
4. 探索评判数据的有效利用:
收集更多评判数据并标注,提高模型在实际场景中的表现,特别是在动态环境中与人类交互时,为实际应用提供反馈。
5. 加强伦理与安全性研究:
研究伦理与安全性验证,确保模型在执行行复杂任务中真实场景中的安全性。
6. 探索新的应用场景:
未来的研究将以医疗辅助机器人、教育机器人、服务机器人等领域开发更高效的应用场景。
7. 探索多模态协作伦理:
探讨人机协作中的伦理和决策过程,如增强人机协作和安全性。
8. 加强伦理与安全性研究:
探讨如何在收集和处理
人类交互数据时保护用户隐私,避免数据泄露和滥用。
9. 跨领域迁移学习:
探讨将模型知识迁移到其他领域(如自动驾驶、智能家居等医疗辅助)的应用,加速模型训练和提高模型部署。