前人的工作大多都是基于检索增强的LMs(如BERT,T5,RoBERTa),通过整合外部知识来提高模型的可信度,但是目前大多数的方法都是使用预训练模型处理数据,再针对于不同的下游任务额外引入针对性的知识库来进行额外的训练和微调,但是这会造成很大的额外开销。
如今的LLMs大多存在的问题是:
1.预训练语料库中存在过时,不正确或缺失的相关知识;
2.训练前对相关知识的记忆不正确;
3.推理阶段相关知识检索错误
论文大致思想:提出了RR方法来使得LLMs模型的可信度更高并改善上述三种问题。在三种情景下(常识推理,时态推理,表格式推理)应用RR方法,发现效果均好于文中使用的baseline:CoT(chain of thinking)提示的GPT-3、Zero-shot/few-shot prompting的GPT-3。
RR(rethinking with retrieval)方法:该方法基于从思维链(CoT)提示中获得的分解推理步骤来检索相关的外部知识。
优点:不需要额外的训练或微调,也不受LLM输入长度的限制。
整体流程:
1.根据Q生成一组推理路径 R1,R2,....RN (Ri = Ei + Pi) 解释和预测(CoT生成);
2.从知识库中检索相关知识Ki来支持每条路径中的解释,选择最可能的预测p;
文章中对三个任务,常识推理,时态推理,表格推理都有举例,这里只以常识推理举例:
1.使用CoT生成一组推理路径Ri(并不是CoT提出的作者那样,只考虑贪婪路径,而是尽可能多的生成推理路径)
2.对于每个Ri,应用BM25算法从知识库中抽取相关度最高的10个段落;
3.使用预训练的MPNet模型,来选择最相似的段落;
4.在上一步中的段落中,使用预训练的NLI模型,获得每个句子的蕴含(entailment)和矛盾(contradiction)分数;
5.根据推理路径解释中所有句子的蕴含分数,矛盾分数和MPNet相似度,使用公式计算每个推理路径的可信度;
6.选出每个问题的最终预测结果;
常识推理使用的数据集:StrategyQA数据集(包括2290个训练示例,每个示例由一个问题Q,一个是/否答案a,一个分解D,证据段落E和支持F组成)。模型评估使用的也是该数据集。