GLM-4.1V-9B-Thinking模型论文速读:迈向通用多模态推理的可扩展强化学习

GLM-4.1V-Thinking 论文讲解

一、引言

GLM-4.1V-Thinking 是一款致力于通用多模态推理的视觉语言模型(VLM)。随着模型智能水平的提升,多模态智能任务的复杂性也随之增加,从科学问题求解到自主智能体开发,对 VLM 的推理能力要求已远超基础视觉内容感知。本研究旨在通过可扩展的强化学习,全方位提升模型的推理能力,使其在多个领域的复杂任务中表现出色。

二、模型架构

GLM-4.1V-Thinking 由三个核心组件构成:视觉编码器、多层感知机(MLP)适配器和大型语言模型(LLM)解码器。

  • 视觉编码器 :采用 AIMv2-Huge 作为视觉编码器,负责处理和编码图像与视频数据。为支持任意图像分辨率和宽高比,引入 2D-RoPE 技术,并保留 ViT 的原始可学习绝对位置嵌入,通过双三次插值函数动态适应变分辨率输入。

  • MLP 适配器 :将视觉特征对齐到标记,实现视觉信息与语言信息的有效融合。

  • LLM 解码器 :选用 GLM 作为 LLM,处理多模态标记并生成标记补全。为增强空间感知能力,将 RoPE 扩展到 3D-RoPE。

对于视频输入,在每个帧标记后插入时间索引标记,以增强模型的时间理解能力。

三、预训练

预训练旨在构建强大的视觉语言基础模型,为后续强化学习奠定基础。

(1)预训练数据

  • 图像字幕数据 :从 LAION、DataComp、DFN 和 Wukong 等公共数据集以及网络搜索引擎聚合超 100 亿图像 - 文本对,并经多阶段精炼流程,包括基于启发式规则的过滤、语义相关性过滤、概念平衡重采样和事实中心的重字幕,提升数据质量。

  • 交错图像 - 文本数据 :从网页和书籍等语料库中提取丰富信息,设计专门处理流程,提取高质量交错图像 - 文本数据,增强模型基础图像 - 文本理解和推理能力。

  • OCR 数据 :构建包含 2.2 亿张图像的大规模预训练数据集,涵盖合成文档图像、自然场景文本图像和学术文档,提升模型文本识别能力。

  • 定位数据 :构建涵盖自然图像和图形用户界面(GUI)的定位数据集,提升模型精准视觉定位能力。

  • 视频数据 :从学术、网络和专有来源构建大规模高质量视频 - 文本数据集,开发精细人类标注流程,确保数据纯净。

(2)训练方法

预训练分为多模态预训练和长上下文持续训练两个阶段。

  • 多模态预训练 :训练所有模型参数 120000 步,采用 2 路张量并行策略,序列长度 8192,全局批量大小 1536,利用数据打包策略提高计算效率。

  • 长上下文持续训练 :在预训练基础上,增加视频输入和长序列交错数据,序列长度提升至 32768,采用混合并行策略,再训练 10000 步,保持全局批量大小 1536。

四、监督微调

监督微调(SFT)作为强化学习的桥梁,将基础视觉语言模型转变为能够进行长链式思考(CoT)推理的模型。

(1)监督微调数据

精心策划长 CoT 推理示例数据集,涵盖多个领域,以标准化格式训练模型生成连贯、多步骤解决方案,助力稳定且可扩展的 RL 训练。

  • 数据组成 :覆盖可验证任务(如 STEM 问题)和不可验证任务(如指令遵循、开放式写作),以中英文为主,保持适中难度。

  • 响应格式 :采用“ ”结构,明确模型推理过程和答案呈现方式。

  • 响应策划 :实施严格数据清洁流程,确保格式规范、推理风格一致,筛选出高质量冷启动数据。

(2)训练方法

进行全参数微调,序列长度 32768 令牌,全局批量大小 32,涵盖长形式推理数据及高质量纯文本长形式示例,保持模型语言理解和通用推理能力。

五、强化学习

强化学习(RL)是提升模型性能的关键阶段,结合可验证奖励的强化学习(RLVR)和基于人类反馈的强化学习(RLHF),在所有多模态领域和能力中开展大规模 RL。

(1)数据准备

定义各多模态子领域中适合 RL 的子任务,筛选或生成可被验证器高精度评估的问答对,进行质量验证和离线难度分级,并开展初步 RL 实验。

(2)奖励系统

建立兼容 RLVR 和 RLHF 的奖励系统,针对每个子领域定制,精确奖励是 RLVR 有效性的关键。对于 GLM-4.1V-Thinking,开发多领域统一奖励系统,提升模型多方面能力。

  • 提取最终答案 :在 RLVR 中,采用基于规则的提取方法,要求模型用盒状标记明确标记最终答案,确保后续正确性比较的准确性。

  • 避免奖励欺骗 :通过精细设计奖励机制,防止模型通过捷径获取高奖励而非真正提升任务性能。

  • 领域特定奖励系统 :不同多模态子领域需要不同的验证器,开发领域特定奖励系统,提升各领域奖励精度。

(3)强化学习与课程采样(RLCS)

为最大化学习效率,提出 RLCS,根据模型当前能力动态调整训练样本难度,确保每次更新都具有最大信息量。通过离线和在线难度评估,持续调整不同难度类别的采样比例。

  • 提高效率 :采用大批次训练,动态采样扩展通过比率指数移动平均(EMA)实现,强制回答并丢弃 KL 损失,提高离策略性能并防止熵崩溃。

  • 提高稳定性 :保证冷启动 SFT 数据质量,移除熵损失,使用 top-p = 1 进行采样,采用按样本计算损失的方法,确保模型在冷启动阶段充分学习输出格式。

六、实验评估

在 28 个公共基准测试中对 GLM-4.1V-9B-Thinking 进行全面评估,涵盖通用视觉问答、STEM、OCR 与图表、长文档、视觉定位、GUI 智能体、编码和视频理解等领域。

(1)评估设置

使用 vLLM 作为模型推理后端,设置最大输出长度为 8192 令牌,规定视觉输入的最大预期长度,预测答案提取自特殊盒状标记内的字符串。对于需要语言模型提取或评分的基准测试,统一使用 GPT-4o(2024-11-20)。

(2)与其他先进 MLLM 的比较

GLM-4.1V-9B-Thinking 在 28 个基准测试中的 23 个上超越了其他 100 亿参数以下的开源模型,在通用视觉问答、STEM、OCR 与图表、长文档理解和 GUI 智能体等领域表现突出,甚至在多个任务上超越了参数规模大得多的 Qwen2.5-VL-72B 模型和封闭源代码的 GPT-4o 模型。

(3)强化学习中的跨领域泛化

在 STEM、OCR 与图表、定位和 GUI 智能体四个代表性领域开展实验,发现单领域 RL 训练不仅能提升该领域特定技能,还能增强其他相关领域的性能,且多领域联合训练在三个领域的表现超过单一领域 RL。

七、讨论与未来工作

GLM-4.1V-Thinking 在多模态推理方面取得了显著进展,但仍存在局限性。未来工作将致力于改进对模型推理过程的监督和评估,探索多模态训练对纯文本推理任务的潜在益处,并推动评估框架的演变以满足模型能力提升的需求。

八、结论

GLM-4.1V-Thinking 是一款面向通用多模态推理的视觉语言模型,通过整合预训练、监督微调和强化学习,实现了在多个领域的优异性能。其开源特性为多模态推理领域的进一步研究提供了有力支持。

核心技术表格

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Open-source-AI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值