📖标题:ProtoReasoning: Prototypes as the Foundation for Generalizable Reasoning in LLMs
🌐来源:arXiv, 2506.15211
🌟摘要
使用长思维链 (Long CoT) 推理训练的大型推理模型 (LRM) 的最新进展已经证明了显着的跨域泛化能力。然而,支持这种转移的潜在机制仍然知之甚少。我们假设跨域泛化源于共享抽象推理原型——捕获跨域问题本质的基本推理模式。这些原型最小化了表示的细微差别,表明看似多样化的任务基于共享推理结构。基于这一假设,我们提出了 ProtoReasoning,这是一个通过利用可扩展且可验证的原型表示(逻辑推理的 Prolog、用于规划的 PDDL)来增强 LLM 推理能力的框架。ProtoReasoning 特征:(1)自动原型构建管道,将问题转化为相应的原型表示; (2) 通过 Prolog/PDL 解释器提供可靠反馈的综合验证系统; (3) 在保证正确性的同时,在原型空间中任意合成问题的可扩展性。大量实验表明,ProtoReasoning 在逻辑推理(Enigmata-Eval)上比基线模型提高了 4.7%,规划任务提高了 6.3%,一般推理(MMLU)提高了 4.0%,数学提高了 1.0%(AIME24)。值得注意的是,我们的消融研究证实,与仅在自然语言表示上进行训练相比,原型空间中的学习也证明了对结构相似问题的泛化增强,验证了我们的假设,即推理原型是大型语言模型中可泛化推理的基础。
🛎️文章简介
🔸研究问题:如何通过抽象原型表示来增强大型语言模型在不同推理任务中的通用性和迁移能力?
🔸主要贡献:提出ProtoReasoning框架,通过利用Prolog和PDDL的抽象原型表示,提高模型在逻辑推理和规划任务上的性能。
📝重点思路
🔸论文引入三种新任务形式(计划生成、计划完成和计划重排序),并建立专门的验证系统确保问题的正确性。
🔸ProtoReasoning框架由两个主要模块组成,分别是逻辑原型构造器和规划原型构造器,利用可执行的原型代码生成问题并从中推导答案。
🔸通过提示工程,系统性地提高问题复杂性,同时保持数据输出的约束。
🔸采用SWI-Prolog解释器推导真实答案,消除对预先存在的问题-答案对的依赖。
🔸进行模型训练时使用监督微调和拒绝抽样等方法构建高质量训练集,并对模型进行评估。
🔎分析总结
🔸实验证明,基于原型的训练显著提升了模型在逻辑推理基准(Enigmata-Eval)上的性能,从37.3%提升至42.0%。
🔸在规划任务中,ProtoReasoning的表现也有明显提升,Nexus-Hard的得分从53.1%提升至59.5%。
🔸结果表明,训练模型时使用的原型表示能够有效地在不同的推理任务中进行知识迁移,提升模型的推理能力。
🔸脑神经相关分析显示,Prolog和PDDL作为逻辑和规划领域的原型表示,在捕捉人类思维过程中起到了重要作用。
💡个人观点
论文的创新点在于提出了“推理原型”的概念,作为理解推理模型在不同任务间迁移能力的基础。通过ProtoReasoning框架,可以在保持数据生成的自动化和可扩展性的同时,有效地提升模型的推理能力和性能。