📖标题:Rubrics as Rewards: Reinforcement Learning Beyond Verifiable Domains
🌐来源:arXiv, 2507.17746
🌟摘要
将具有可验证奖励 (RLVR) 的强化学习扩展到现实世界的任务通常需要平衡客观和主观评价标准。然而,许多这样的任务缺乏单一的、明确的基本事实——因此很难为训练后语言模型定义可靠的奖励信号。虽然传统的基于偏好的方法提供了一种解决方法,但它们依赖于难以解释且容易出现虚假相关性的不透明奖励函数。我们将 Rubrics 引入 Rewards (RaR),这是一个框架,它使用结构化、清单风格的 rubrics 作为可解释的奖励信号,用于使用 GRPO 进行策略训练。与简单的基于 Likert 的方法相比,我们最好的 RAR 方法在 HealthBench-1k 上产生了高达 28% 的相对改进,同时匹配或超过了专家编写的参考得出的奖励信号的性能。通过将量规视为结构化奖励信号,我们表明 RAR 使小规模法官模型能够更好地与人类偏好保持一致,并在模型尺度上保持稳健的性能。
🛎️文章简介
🔸研究问题:如何在缺乏单一真实答案的情况下设计可靠和可扩展的奖励机制,以评估生成模型的响应质量?
🔸主要贡献:论文提出了一种“奖励评分标准”(RaR)的方法,通过使用结构化的评分标准增强了强化学习在开放性任务中的表现。
📝重点思路
🔸使用评分标准作为奖励信号,指导多维度的模型训练。
🔸生成针对具体提示的评分标准,每种标准涵盖不同的质量维度,如准确性、逻辑结构、完整性等。
🔸采用大型语言模型(LLM)作为评判模型,通过隐式或显式聚合评分标准来计算奖励。
🔸在医学和科学领域应用评分标准生成方法,创建两个训练数据集(RaR-Medicine-20k 和 RaR-Science-20k)。
🔸通过体验明确的评分标准,增强模型的对人类偏好的对齐和表现的一致性。
🔎分析总结
🔸通过实验发现,使用评分标准进行的评估比传统的Likert评分方法在准确性上有显著提高,尤其是在医学领域。
🔸隐式评分聚合的方法,相比于显式的权重和汇总方式,更能适应复杂的真实世界任务并表现出更强的性能。
🔸研究显示,包含专家指导的合成评分标准在捕捉细微差异和提升与人类偏好的对齐上比无专家指导的评分标准更有效。
🔸实验表明,评分标准能显著降低模型在评估过程中的表面偏差和对格式特征的过拟合现象。
💡个人观点
论文创新地将评分标准与强化学习相结合,提供了一种更加透明和可解释的奖励机制,使得模型不仅能实现任务目标,还能在复杂的、主观性较强的任务中提供更精细的反馈。