能够cover更多任务的多模态理解大模型

weixin_42001089

于 2025-06-07 21:40:10 发布

阅读量961

点赞数 25

CC 4.0 BY-SA版权

文章标签： openai transformer

本文链接：https://blog.csdn.net/weixin_42001089/article/details/148501206

前言

之前给大家介绍过一篇字节的多模态模型，其将理解和生成进行了统一

《将理解与生成统一的多模态模型》：https://zhuanlan.zhihu.com/p/1912103384309301799

今天再给大家介绍一篇字节的多模态文章，只不过其专注于理解任务，在60个benchmark中，有38个取得sota，另外其还在GUI控制和游戏等特殊任务中取得了不错的效果，而且还在视觉谜题等多模态推理挑战中展现出了强大的推理能力。总而言之就是在理解任务上把能想到的场景都尽可能的考虑到了，进而争取支持更广泛的应用。

技术报告链接：https://arxiv.org/pdf/2505.07062

技术报告介绍的很详细包括模型框架、数据、工程等方面的工作。咱们这里重点看下Architecture、Pre-training、Post-training这三大模块技术。全文较长，大家可以根据自己感兴趣的部分挑着看。

为了学起来有动力，咱们这次先看一些该模型的Evaluation具体效果，然后再看具体技术是怎么实现的。

Evaluation

这套题是看图去计算从C到A的单色路线数量有多少条？并把最后的结果用{}括起来。

下面是模型的推理，最后计算得到是2条。

下面是根据图片，定位其位置。

下面是模型的推理，定位出位置，包括经纬度。

下面是直接看图解字谜

下面是根据Emoji推理。

下面是一些推理题

下面是看图找不同

下面图片中每个点代表不同的物体，要求模型按照从近到远的顺序排序

下面是OCR识别任务

下面是看图写诗，展示了模型对图片的强大理解

笔者这里就先列这些case，技术报告中还有很多例子，大家感兴趣的话可以去查看，通过看完这些例子，是不是感觉还挺强的，那好！接下来我们就一点点来看看其是怎么具体实现的？

Architecture

模型整体框架如下，由三大部分组成：vision encoder、 MLP adapter、LLM。其中MLP adapter就是两层MLP 层，LLM也没啥可说的，直接复用其热启的大模型即可，我们来重点看下vision encoder。

在图像领域最关键的就是要支持处理各种不同分辨率的图片（一些早期采用固定输入分辨率的方法会无意中丢弃细粒度的视觉信息。）为了应对这种情况，Qwen2-VL、InternVL-2.5等一些工作已经进行了一些探索，主要就是探索了微调预训练视觉编码器以适应动态分辨率输入（部分缓解了这一限制）。但是这些方法仍然在很大程度上依赖于适应现有的固定分辨率架构，并需要调整位置编码（例如从1D扁平化位置嵌入过渡到2D RoPE或1D位置嵌入插值到各种形状），那在完成这些适应后可能就无法完全保留视觉细节和精度。同时作者想将视频数据纳入到vit（就是这个编码器）预训练阶段，使模型不仅能学习图像的空间特征，还能学习空间-时间动态，从而增强其处理动态场景和复杂视觉内容的能力。

为此作者专门设计了一个vision encoder，然后单独训练得到一个vit。

具体来说，输入图像先经过一个预处理步骤即使用双线性插值将其分辨率调整为最接近28×28像素的倍数。然后每张图像被分割成一系列非重叠的14×14像素的图像块，然后将多个输入图像的图像块序列连接成一个统一的序列，该序列通过线性图像块嵌入层被投影到嵌入空间中的标记，然后输入到transformer块中。为确保属于一张图像的标记不会关注batch批处理序列中其他图像的标记，其在transformer块内的自注意力计算中使用适当的注意力掩码。

然后就是训练了，首先就是MIM、然后就是文本-图像的对比学习，最后就是参考MiCo框架进行全模态预训练。

下面再说说对于视频的编码，因为编码视频通常要面对的问题就是视频太长了怎么办？

作者主要是通过引入动态帧分辨率采样来解决即在时间（帧）和空间（分辨率）维度上联合优化采样，以平衡语义丰富性和计算效率。

具体来说视频被处理为图像帧序列时不使用统一的采样率，而是根据内容复杂性和任务需求调整帧采样频率。默认采样率设置为每秒1帧（1 FPS），该采样率适合捕捉视频内容的一般理解，而对于需要详细时间信息的任务，帧采样率增加到2 FPS。对于之前咱们讲的视频计数或运动跟踪等任务，采样率增加到5 FPS。

同时为了明确地将每一帧定位在视频时间线上，其还在每一帧前主动添加时间戳标记（比如[1.5秒]）。通过这种显示的告诉模型明确的时间，大大增强了模型对时间的感知能力，使其能够有效处理现实场景中常见的可变帧率。

支持每个视频的最大长度是有限的即81920，所以作者动态调整空间分辨率，具体来说是预定义了6个级别为每帧分配标记：{640, 512, 384, 256, 160, 128}。这样就可以灵活调整比如为较少的帧使用更高的分辨率，或使用较低的分辨率以容纳更长视频的更多帧。

另外遇到特别长的视频，即使使用最低标记分配（每帧128个标记）也会超过最大编码长度，这个时候模型通过在整个视频中进行均匀采样来减少总帧数。虽然这降低了时间密度，但确保了整个视频都得到表示，平衡了处理效率和保留重要时间信息。

可以看到这种灵活的调整（在时间即帧和空间即分辨率维度上联合优化采样）能够高效准确地处理不同长度和帧率的视频。

Pre-training

该章节主要是讲预训练，具体分为数据、训练方法、ScalingLaws三大部分，下面我们分别看看。

(1) Pre-training Data

作者在这里准备了非常多类型的数据，以提高数据的多样性具体如下

Generic Image-Text Pairs & Knowledge Data

这里就是从网上收集的数据，其量级非常大且多样性很足，作者对其进行了一系列过滤清洗（有用CLIP模型的、有基于规则等等）。同时作者在这里重点讲了一下数据平衡的问题，还做了配套实验来说明。

具体来说就是用Biotrove数据来做了一下分类（这是一个物种分类数据），一共做了三组实验即Random-46M：从训练集中随机选择4600 万个样本。Max1k-46M：共选择4600 万个样本，但每个物种最多1000个样本，确保包含了稀有物种。Max100-15M：共选择 1500 万个样本，每个物种最多 100 个样本，确保更大程度地包含了稀有物种。然后在测试集上测试效果如下（Balanced10k代表常见物种、Rare2k代表稀有物种）

随机抽的方法在稀有物种识别方面表现很差。而Max1k-46M可显著提高稀有物种的识别性能。进一步限制常见物种的Max100-15M方法可以进一步增强对稀有物种的识别效果，但会对常见物种的识别也产生不利影响。因此作者认为在多模态领域既要维护常见视觉概念数据的多样化，且同时确保对稀有视觉概念数据进行足够的训练迭代。

具体实操的话，作者首先利用 VLM去给每个数据打tag，具体来说就是由相关语义域（例如，地标、食品、商品、生物）和相关命名实体（例如，产品品牌、物种名称）对现有数据进行注释。然后进行统计，即语料库频率较低的命名实体就被认为是稀有视觉知识数据（平均域频率 50% 以下的域）。随后对这部分数据进行复制，最后再将其合并回原始语料库，这样就实现了更均衡的视觉概念分布。（其实整个过程就是类似上采样）。

Optical Character Recognition (OCR)

这部分是OCR数据，涵盖文档、场景文本、表格、图表和流程图。

对于文档数据，其从各种来源收集了大量页面，提取了内容和布局信息。此外，还精心设计了一套多样化的字体，包括艺术字体、手写体和非拉丁文字，随后利用SynthDog 和LaTeX等工具合成了超过2亿张文本密集型图像比如如上图(a)。为了提高模型在理解图像中文本内容方面的鲁棒性，还对合成数据应用了各种数据增强技术，包括模糊处理、添加莫尔纹图案和图像扭曲。上图2©就展示了一个经过基于扭曲的增强处理后的文档图像例子。

对于图表数据，作者是收集了现有的开源数据集如FigureQA）和以及新生成了一些数据，其是使用了一些传统工具比如ECharts、Matplotlib 等以及结合基于大语言模型来做的，具体来说是用L大模型来生成文本形式的图表组件（标题、图例等），然后用另一个大模型将其转换为LaTeX或Python代码以进行渲染，最终通过执行这些代码获得图表图像。如上图(b)。

对于表格数据，作者从各种来源提取HTML、LaTeX和Markdown格式的文本，包括网页HTML、GitHub README文件和来自arXiv的LaTeX文件。使用这些文本，作者渲染了超过5000万张表格图像，创建了一个用于表格解析的综合数据集。这个数据集使模型能够高效地将表格转换为HTML、LaTeX和Markdown等格式。

为了进一步增强模型对图像中文本内容的理解能力，作者额外构建了一个视觉问答（VQA）数据集。具体来说，作者使用了一个内部之前的VLM模型，通过基于OCR输出、图表内容、表格文本和图像本身的条件主动生成一个问答对。上图(d)就是一个基于输入表格图像来生成对应生问答对的例子。问题是Sigmoid Clouds的log(C/H)是多少，回答是先找到Sigmoid Clouds这一行，然后再找到log(C/H)这一列，最后定位得到最终答案。

Visual Grounding & Counting

这部分主要是针对图像定位任务的，具体来说作者采用bounding和point两种方式，除了定位外，作者还采用加了一个统计物体数量的任务即Counting。下面我们来分别看看。

对于bounding数据，作者使用了比如Objects365、OpenImage等各种开源数据集，作者不是直接拿来用，而是先进行了一些过滤（将bounding框真实渲染到图像上，然后用当前的VLM去检测，过滤掉注释不正确、标签缺失或注释冗余的样本）。

而且作者还利用这些开源数据集构建多样化的多任务数据比如包括：通用2D定位、关于空间关系的问答以及带有视觉提示的问答。

同时为了增加多样性，作者还从标题中提取名词短语和实体，然后采用Grounding DINO来标注网络图像，这样自动化的标注了很多样本。

对于Point 数据，作者使用PixMo-Points提供的公开数据。同样为了多样性，作者使用Molmo和CountGD来标注大量网络图像中物体的中心点（多提一句，在标注的过程中，作者发现CountGD在标注密集图像场景中的物体时表现特别好。）

对于Counting 数据，作者从上述bounding和Point数据中采样，然后基于边界框的计数和基于点的计数得到最终数据，在实际训练过程中，作者使用相对坐标并将所有坐标值标准化，使输出的边界框和点落在[0, 999]范围内，这使得模型能够准确预测相应的边界框和点，而不受输入图像分辨率的影响（作者将这种标准化应用于到了所有相关数据，包括光学字符识别（OCR）和图形用户界面（GUI））

3D Spatial Understanding

这部分任务是希望增强模型对3D的理解感知，作者构建了三大类任务：相对深度排序、绝对深度估计和3D定位。同样的，我们一个一个来看。

对于相对深度排序数据，作者使用DepthAnything V2来从200万张互联网图像中采样物体之间的深度关系。最终选择了相对深度差距超过20%的平均深度来作为数据。

对于绝对深度估计数据，作者主要使用的是公开数据集。对于每个识别的实体，使用相应的注释深度图确定其绝对深度。

对于绝对深度估计数据，也是利用了公开数据集。这些数据集经过处理后被重新组织成问答（QA）对。

Video

这部分就是增强模型对视频（连续多帧）的理解，其也是收集了公开的数据集，任务多种多样（包括视频描述、视频问答、动作识别、动作定位和多图像理解等等）

为了增强模型对时间的感知能力，作者还收集了视频时间定位和时刻检索能力的公开数据集，具体来说就是根据用户query直接预测开始和结束时间戳（默认使用秒格式），时间定位能力很重要，有利于视频中的复杂推理任务。

另外模型还需要具备对实时视频流动态理解的能力，为此作者对该部分数据进行了结构化，主要由下面三个部分组成：

（a）交错的描述/问答数据，通过直接描述分段视频片段或按时间顺序构建多轮问答pair来构建交错的视频文本序列。这些描述和问答对被插入到视频中相应的时间戳处，以增强实时视频理解。

（b）主动推理数据，将定位的视频问答和密集描述数据重构为逐帧响应格式。这些数据要求模型持续监控视频流，并主动确定适当的时间戳来产生响应。

（c）实时评论数据，利用自然时间同步的视频评论数据，提供视频帧和文本的细粒度交错和对齐。这种形式使模型能够处理中断，并根据视频流实时动态更新响应。

Science, Technology, Engineering, and Mathematics (STEM)

为了增强模型的推理能力，这部分主要是收集数学、物理、化学和生物学等理工科的数据，具体来说是收集了 image comprehension data 和problem-solving data数据，前者就是和图像有关的题目比如包括化学结构图、坐标系图等等，后者就是K12级别的练习题（好包括成人教育问题和数百万个与图像相关的英语问题等等）。

Graphical User Interface (GUI)

对于GUI数据，作者主要是从UI-TARS中整理数据。具体来说作者在网页、应用程序和桌面环境中整理了一个大规模数据集。每个截图都配有结构化元数据——元素类型、边界框、文本和深度（这些数据通过自动解析和人工辅助收集。）

对于感知任务，作者构建了包括元素描述、密集描述和状态转换描述在内的任务。这些任务增强模型识别小型UI组件、理解整体布局，以及检测帧之间的细微视觉变化。

对于定位任务，作者训练模型从文本描述中预测元素坐标。

对于推理任务，作者收集了多步骤任务轨迹，每个轨迹都标注了观察结果、中间思考过程和行动。这些数据结合了内部和标准化的开源轨迹，使模型能够学习逐步规划、纠正和反思的能力。

(2) Training Recipe

讲完了预训练的数据收集部分，下面我们来看看具体的预训练方法。

模型整体架构部分我们之前讲过了，其主要是三大模块即vision encoder、MLP adapter适配和一个LLM。从上图可以看到训练阶段分三大部分。

stage 0：该步骤是只训练MLP adapter，冻结其他参数，不过作者也提到了在该训练过程中可能会参数很大的loss和不好效果，可以先忽略。

stage 1：该阶段就是所有参数都开始训练，主要是想让模型开始知识积累，以及掌握视觉定位和OCR能力。同时根据经验，发现添加少量的纯文本标记（例如5%）就可以维持模型的原来的纯文本能力。此外通过添加少量的指令跟随数据就能得到更可靠的评估结果（这样能够将预训练开发与后训练开发分离评估。）

stage 2：进一步在不同任务之间创建了更平衡的数据混合，并添加了来自新领域的数据（比如上述说的视频理解、编程和3D空间理解），而且还将序列长度从32768增加到131072，该步骤所有模型参数也都是可训练的。

同时作者还尝试了在stage 0阶段同时训练vision encoder和MLP adapter（LLM冻结）。但是评测效果不佳，作者推测可能是由于vision encoder试图补偿冻结的LLM中可能存在的能力不足而更新，进而损害其自身已有的感知能力。

(3) Scaling Laws

这一节中，作者主要是讲了一下大模型时代津津乐道的scaling laws，最常见的公式如下：

其中N是模型参数量，D是训练的token数，由于对于某一个特定模型来说参数量是不变的，所以前面一项可以看成是常数，那么就变成了

然后可以通过两边取对数，进一步简化

基于这个公式，作者绘制了在ocr和grounding领域真实数据如下

可以看到是有一定规律的且符合上述推到公式，甚至可以进一步把那些常数给拟合出来如下

而且作者还发现了一个有趣的现象即训练的loss和下游任务的评估是高度相关的比如

具体来说：

Post-training

在预训练完后，就开始Post-training了，这部分主要就是去增强模型的指令遵循能力。和标准的后训练流程没什么大的不同即先sft再强化学习。其中强化学习又分为RLHF和RLVR，主要区别就是一个是基于生成式的开发rm，另外一个是类似deepseek一样采用基于规则的rm。下面我们一个个的详细看看。

Supervised Fine-tuning

首先是sft，这里的数据集包括两大部分，第一部分是通用指令数据，注重生成简洁准确的响应。第二部分是带有长cot的数据，专注于生成详细的、循序渐进的推理。

具体来说数据的获取有三种，第一种纯人工数据，是其根据传统常见的视觉任务和主要应用场景先搞了一个模型能力分类法，依据这些能力去让标注人员从互联网等领域收集数据进行标注，最终得到1.3w条数据。

第二种是开源数据即从开源社区中收集了150w的数据，为了多样性其对每一对image-text的数据进行emb，然后聚类到特定的任务上（其实就是分类），最后进行降采样，得到一个多样性的样本。然后对每采样后的每一个prompt，用当前训练好的SFT model去拒绝采样，用LLM-as-a-judge（后面会讲到）去判断回复的答案和原始参考答案是否匹配进行过滤，最终得到3w条高质量的数据。

第三种就是机生数据，主要手段也是在llm领域常用数据进化即将多个简单prompt融合生成一个新的复杂prompt，同时通过拒绝采样得到response，最后经过人工二次检验得到最终数据。

经过上述数据准备最终得到5w高质量数据，同时混上其内部的纯文本数据最终训练2个epoch。在训练的时候，视觉编码器的参数被冻结，剩下其他模型参数都参与训练，训练长度为131072个token。

Reinforcement Learning from Human Feedback

该部分就是强化学习，其中最重要的就是要训练一个reward model，进而就需要相应的Preference偏好数据，具体来说作者是通过两大类数据来组合得到最终的Preference data。

第一部分是人工标注数据，其覆盖了各种任务，且对各项任务进行平均的取，以保证了多样性。为了确保答案的多样性，在选择人工标注的答案之前，还应用了过滤技术，例如编辑距离、语义相似性和长度平衡策略。除了按质量对答案进行排序外，还让人工选择一个只需进行少量编辑即可纠正或提升质量的模型答案，进一步弥补了有限答案样本造成的多样性不足。另外还让人工标出具体出现的问题（例如幻觉、有用性、信息量等），并对这些问题提供详细的解释。为了进一步提高标注过程的效率，作者海采用最新的奖励模型对排名进行预标注，提高效率。

第二部分是合成数据，一些传统的方法通过故意引入错误来合成偏好pair，但这种方式构建出来的数据质量不高，多项研究表明，此类合成数据通常无法有效泛化，因为奖励模型倾向于学习编辑后答案与原始答案之间的固有模式。作者是汇集了一组具有明确基准答案（这样就好明确判断答案是否正确）的prompt，然后类似deepseek一样，将最终答案用特殊的比如answer:隔离开，接着就是对于每个prompt，采样生成K次模型回答，并使用现有的视觉语言模型根据基准答案评估其正确性和格式遵循程度。具体来说建立了具有明确排名的列表式偏好：格式良好的正确回答排名最高，其次是格式良好的错误回答，最后是不遵循格式的错误回答（可以看到和deepseek R1大体思路一样）。此外他们还遵循FeedQuill的方法生成图像描述偏好对（有助于减少幻觉）。简单一句话就是只选择那些能被明确判断response回复是否正确的prompt，然后采样response，就可以快速判断，得到偏好序。

有了数据就可以训练rm model了，具体来说就是使用VLM来初始化训练，同时在针对当前prompt x的回复打分的时候，同时对两个回应y1和y2的直接生成偏好（注意不是对一个单一reponse回复打分），同时作者专门强调了一点就是在后续迭代的过程中，由于要求质量越来越高，所以数据标准也会不断发生变化，数据也随之变化，那么rm的更新也要随之变化，有助于不断训练出更好的泛化模型。

所以在具体训练的时候会把一个真实答案或者来自来自SFT模型的N个最好response中的一个作为参考提供给奖励模型。

另外一个需要关注的问题就是选取哪些prompt来强化学习呢？这也是非常关键的，作者共使用了下面一些手段进行筛选：

首先训练了一个模型，来给prompt打能力类别标签，然后进行分层抽样，以确保不同能力类别的均衡表示。

然后对于每个prompt，使用最新迭代的主模型生成K个回应，并使用最新迭代的奖励模型（之前强调过rm也在随数据标准变化在不断变化）进行评估，如果K个回应中最高奖励与平均奖励之间的差异低于预定阈值，则过滤该prompt，这样的话确保保留那些rm表现出明显区分能力的prompt（比如有一个prompt,K次回复都是一摸一样的分数比如都对了，那么意味着没啥差异可学的了，强化学习要想让模型学到东西，得同时有好有坏，有了这种差异对比才能更好的学习）。

最后在训练的初始阶段，对于那些奖励和KL散度同时快速增加的prompt（表明任务难度较低），进行了降采样处理。

Reinforcement Learning with Verifiable Rewards

可以看到上面强化学习所依赖的rm主要来源于人工标注偏好模型也即RLHF，那deepseek大火之后，他所用的奖励其实不用单独训练一个rm model，而是直接基于结果的规则判断即可（比如数学题只看结果对不对就行，编程题只看最后的结果能不能通过测试用例即可），所要做的额外工作就是把最终答案要放到一个预先规定好的格式模版中，方便规则提取比如(< answer >…< /answer >)，这种思路叫做RLVR。

接下来我们就看看作者具体用了哪些数据。

首先就是最容易想到的STEM领域（科学、技术、工程和数学），因为这些题目通常都有一个唯一明确可检验的答案，具体来说作者收集了一些带有图像（毕竟是做多模态）的多选题，然后把多选题转化成纯生成的题目，正确选项作为最终的正确答案，同时过滤掉那些只靠纯文本就能回答对的题目（这部分题目图像没起了多大作用），因为我们想让模型学那些同时利用图像和文本的能力，还有就是对于每个prompt，用最新的主模型拒绝采样16次，看正确率，只保留准确率介于0%和75%的题目，过滤掉那些过于简单的（其实思路和上一节中如果K个回应中最高奖励与平均奖励之间的差异低于预定阈值就被过滤的底层思路逻辑大体一致），最后就是模型生成的时候需要把最终答案的放在类似\boxed{answer}方便提取，提取后转化成sympy expression格式和正确答案对比来作为奖励信号反馈。

除了上面的作者还探索了一些其他视觉推理方面的任务如下：

（a）Grounding：这个很好理解，主要就是看模型对图像中某个物体的定位能力，其需要把最终的答案放到< bbox >和< /bbox >或者< point >和< /point >中方便提取模型预测答案，来和最终标准答案做交并比（IoU），把其当作奖励信号给模型进行学习。

（b）Visual Instruction Following：这里主要是想提高模型的指令跟随能力，其主要是参考了一些已有的工作进行数据合成，核心思路还是结果可被规则解析验证，作者这里给了两篇文章，大家感兴趣的follow下。

（c）Visual Puzzles & Games.

Visual Puzzles类任务是需要模型从视觉场景中收集信息并应用推理技巧（如抽象推理、归纳推理和演绎推理）的任务。具体来说作者合成了超过2万个视觉谜题及其相应的解决方案，而且仔细对合成训练数据进行了去污处理，避免与相关的benchmark如PuzzleVQA有重叠。

除了让模型直接生成自然语言，作者还探索了Visual Games类任务即能够直接生成与图像内容交互或操作的输出格式（更直观的交互方式促进VLM的更广泛应用）。比如在用户在用AI眼镜时，直接在用户视野中叠加导航路线而不是依赖文本或语音这种交互方式，这样的交互更直观。作为探索，作者先在视觉游戏领域进行了尝试。

具体来说，作者在针对"找不同"游戏来尝试（要求模型识别两张图片之间的差异），要求模型不仅要用自然语言解释这些差异，还要输出精确定位差异区域的边界框，直接标注在图像上。作者使用了两种方法来合成相关数据：

第一种是先从开源数据集中获取图像，然后随机遮蔽部分区域，再使用扩散模型等生图模型进行修复，然后筛选出修复内容与原始内容过于相似的图像对（修复肯定不能保证100%修复，但是又很像，正好就是利用了这一点既像又不像的特点）比如

另外一种就是为确保模型能感知到线条宽度或物体大小等细微差异，作者通过系统地修改开源数据集中的SVG属性来生成额外的图像对。

Hybrid Reinforcement Learning

通过上面可以看到有两大类强化学习即RLHF和RLVR（其实主要就是依赖的奖励模型不同，一个是基于生成模型的，一个是基于规则匹配），那实际训练的时候该怎么把这两个统一起来呢？本节主要就是披露了这方面的一些细节。

比如都让模型按照< think >{thought}< /think >{solution}这样的大体模版去回复，方便提取答案，RM统一都只提取solution这里的最终答案去评分，而不对thought进行关注，以便于其更好的探索。其次就是把两类奖励信号都统一最终缩放到[0, 1]范围内，以便与可以mix两类数据一起学。

另外就是强化学习中场景的kl散度，这个在RLHF正常用，而在RLVR不用RLHF（因为RLVR的答案都非常正确，大胆探索就行，不怕跑偏）。

在实际训练中，两种方式的数据都是随机取然后进行组batch的，对于RLHF的prompt每次只采样一次，对于RLVR采样4次或8次（难的prompt就多采样几次对比着学）

Iterative Update by Rejection Sampling Fine-tuning

强化学习是在sft模型基础上开始训练的，作者观察到更强的sft有助于RL训练出更强的模型，算是相辅相成的吧，于是作者就想到可以互相迭代着前进，具体来说就是在每一次RL后，通过之前讲的那些方法来筛选出具有挑战性的prompt，然后通过拒绝采样来获得一些正确的response，这样就有了sft数据，然后就直接在RL的模型基础上sft一把，sft后再RL，RL后再sft，作者如此进行4轮迭代，效果展现出了持续的提升（但是具体提升的量化指标笔者好像没有在报告中找到）

总结

（1）可以看到本篇在视觉理解领域做了很多功夫，做了很多不错的数据，上篇给大家介绍的理解和生成统一的paper其实更多的是在生成领域做了很多数据，而且有意思的是两篇都是字节的，如果内部能把数据打通共享，相信效果还会再提升。

（3）RLVR这种方式在各个领域都可以试试，而且做数据的手段可以五花八门。另外就是有了一份sft数据，到底是做sft，还是拿来做RL，都可以试试（复用），不过后者可以专门做一个挑选prompt的工作，比如本篇提到的通过拒绝采样多次后，对每一条结果来判断进行过滤（比如可以通过看最高分和平均分是否低于每个阈值来过滤，或者通过看准确率来过滤比如保留0-75%的）

（2）还是同样的期望：啥时候将语音模态以及其各种任务（比如ASR、TTS等）一起融到大一统的模型中，做一个真真的全能型模型，也许到那个时候因为一个模型能吃的数据更丰富了，能接着继续Scale Law。