小红书搜索团队提出全新框架：验证负样本对大模型蒸馏的价值-CSDN博客

本文链接：https://blog.csdn.net/REDtech_1024/article/details/135559942

大语言模型（LLMs）在各种推理任务上表现优异，但其黑盒属性和庞大参数量阻碍了它在实践中的广泛应用。特别是在处理复杂的数学问题时，LLMs 有时会产生错误的推理链。传统研究方法仅从正样本中迁移知识，而忽略了那些带有错误答案的合成数据。

在 AAAI 2024 上，小红书搜索算法团队提出了一个创新框架，在蒸馏大模型推理能力的过程中充分利用负样本知识。负样本，即那些在推理过程中未能得出正确答案的数据，虽常被视为无用，实则蕴含着宝贵的信息。

论文提出并验证了负样本在大模型蒸馏过程中的价值，构建一个模型专业化框架：除了使用正样本外，还充分利用负样本来提炼 LLM 的知识。该框架包括三个序列化步骤，包括负向协助训练（NAT）、负向校准增强（NCE）和动态自洽性（ASC），涵盖从训练到推理的全阶段过程。通过一系列广泛的实验，我们展示了负向数据在 LLM 知识蒸馏中的关键作用。

如今，在思维链（CoT）提示的帮助下，大语言模型（LLMs）展现出强大的推理能力。然而，思维链已被证明是千亿级参数模型才具有的涌现能力。这些模型的繁重计算需求和高推理成本，阻碍了它们在资源受限场景中的应用。因此，我们研究的目标是使小模型能够进行复杂的算术推理，以便在实际应用中进行大规模部署。

知识蒸馏提供了一种有效的方法，可以将 LLMs 的特定能力迁移到更小的模型中。这个过程也被称为模型专业化（model specialization），它强制小模型专注于某些能力。先前的研究利用 LLMs 的上下文学习（ICL）来生成数学问题的推理路径，将其作为训练数据，有助于小模型获得复杂推理能力。然而，这些研究只使用了生成的具有正确答案的推理路径（即正样本）作为训练样本，忽略了在错误答案（即负样本）的推理步骤中有价值的知识。

如图所示，表 1 展示了一个有趣的现象：分别在正、负样本数据上训练的模型，在 MATH 测试集上的准确答案重叠非常小。尽管负样本训练的模型准确性较低，但它能够解决一些正样本模型无法正确回答的问题，这证实了负样本中包含着宝贵的知识。此外，负样本中的错误链路能够帮助模型避免犯类似错误。另一个我们应该利用负样本的原因是 OpenAI 基于 token 的定价策略。即使是 GPT-4，在 MATH 数据集上的准确性也低于 50%，这意味着如果仅利用正样本知识，大量的 token 会被浪费。因此，我们提出：相比于直接丢弃负样本，更好的方式是从中提取和利用有价值的知识，以增强小模型的专业化。

模型专业化过程一般可以概括为三个步骤：

1）思维链蒸馏（Chain-of-Thought Distillation），使用 LLMs 生成的推理链训练小模型。

2）自我增强（Self-Enhancement），进行自蒸馏或数据自扩充，以进一步优化模型。

3）自洽性（Self-Consistency）被广泛用作一种有效的解码策略，以提高推理任务中的模型性能。

在这项工作中，我们提出了一种新的模型专业化框架，该框架可以全方位利用负样本，促进从 LLMs 提取复杂推理能力。

我们首先设计了负向协助训练（NAT）方法，其中 dual-LoRA 结构被设计用于从正向、负向两方面获取知识。作为一个辅助模块，负向 LoRA 的知识可以通过校正注意力机制，动态地整合到正向 LoRA 的训练过程中。
对于自我增强，我们设计了负向校准增强（NCE），它将负向输出作为基线，以加强关键正向推理链路的蒸馏。
除了训练阶段，我们还在推理过程中利用负向信息。传统的自洽性方法将相等或基于概率的权重分配给所有候选输出，导致投票出一些不可靠的答案。为了缓解该问题，提出了动态自洽性（ASC）方法，在投票前进行排序，其中排序模型在正负样本上进行训练的。