论文笔记：Do Prompt-Based Models Really Understandthe the Meaning of Their Prompts?

论文来源：NAACL 2022

论文地址：2022.naacl-main.167.pdf (aclanthology.org)

论文代码：GitHub - awebson/prompt_semantics: This repository accompanies our paper “Do Prompt-Based Models Really Understand the Meaning of Their Prompts?”

GB/T 7714：

Webson A, Pavlick E. Do Prompt-Based Models Really Understand the Meaning of Their Prompts?[C]//Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2022: 2300-2344.

Abstract

最近，各种基于提示的模型在零样本和小样本学习中取得了非凡的进展。通常认为，提示可以帮助模型学习的更快，就像人类在提供用自然语言表示的任务指令时学习的更快一样。在本研究中，作者实验了30多个人工编写的自然语言推理的提示模板，并且发现，模型可以学习许多故意无关、甚至病态误导的提示，就像它们使用指导性“好”的提示一样快。也就是说，即使是在零样本场景下，提示调优模型使用不相关和误导性的提示也能产生良好的预测。

本文的核心是：质疑基于提示的模型能够真正理解其提示的意义。

Introduction

例如：假设给一个人两句话：

① 在伊拉克尚未发现大规模杀伤性武器；

②在伊拉克发现了大规模的杀伤性武器。

然后，要求他们回答0或1，如果回答正确则获得奖励。在这个任务中，人类可能需要学习很多的样本才能知道这个任务是要做什么。

如果换一个问题：

鉴于“在伊拉克尚未发现大规模杀伤性武器”，“在伊拉克发现了大规模的杀伤性武器”是否绝对正确？

那么人类能够更准确的实现这个任务，而不需要很多例子来弄清楚任务是什么。

基于提示的方法自然产生了一种假设，即每个输入实例中包含的额外提示文本作为具有语义意义的任务指令来帮助模型学习的更快，就像任务指令帮助人类学习的更快一样。现有的一些方法含蓄的假设了这一假设。

为了验证模型能否真正理解提示的含义，作者通过使用30多个人工编写的模板和13组LM目标词（标签词）一共390个提示，在零样本和小样本设置下评估了自然语言推理的各种模型。结果发现，在大多数情况下，当给定不相关或者误导性的模板时，模板的学习速度和给定良好的指导性模板时一样快。

Effect of Template

本文的研究问题是：模型是否将提示理解为类似于人类理解的有意义的任务指令。如果模型理解了指令，就期望它们比误导性指令、进行无关的闲聊或者什么都不说时表现的更好。

Method

作者编写了如Table1所示的5个类别的模板，每个类别至少5个模板（指导性模板10个）：

指导性：我们如何向一个从未见过这个任务的人描述NLI任务。

误导-适度：指示模型执行与NLI相关或间接相关的任务，这样，如果模型按照明确的指示执行任务，它在NLI上一般表现会很差。

误导-极端：指示模型执行与NLI无关的任务。

无关：将前提（一个与任何NLP任务无关的句子）和假设连接起来。

空：连接前提和假设，没有任何附加的文本。

Result

不相关模板 实验发现，使用不相关训练的模型和使用指导性模板训练的模型学习一样快，在小样本场景下几乎无差距，具体如Figure 1所示。这在我们的实验中所有的模型和数据集都是如此，包括GPT-3，具体如Figure 2所示。

误导性模板 使用中度误导性的模板与极度误导性的模板训练的模型的性能之间没有一致的关系。T0在中度误导情况下表现更好（Figure 3），ALBERT（Figure 12）和 T5 3B（G.4）在极度误导性情况下表现较好，而T5 11B和GPT-3在两组模板上的表现相当（Figure2）。然而尽管两个误导性类别之间缺乏一致性，但是与任一种误导性模板相比，每个模板在指导性模板上表现出明显更好的性能。

空模板 使用空模板训练的模板的性能比所有其他类别的模板要差得多。此处不再逐一列出，感兴趣者可以查阅论文附录G

Zero-Shot 在零样本场景下，所有模型（包括GPT-3 175B）的性能仅略高于随机模型，除了指令调优的T0。T0 3B的性能与两种误导性模板之间没有实际差异；T0 11B表现的更好，尽管它没显示出中度误导性模板和指导性模板之间的实际区别；T0++是本文唯一在所有提示类别中饭显示出明显差异的模型。

Effect of Target Words

Method

在本实验中，作者研究了给定固定模板的不同LM目标词的影响。作者编写了4类目标，每个类别至少有3对目标词（除了单例的yes-no类别），具体如下表所示。

1、Yes-no：模型期望蕴含预测为yes，不蕴含预测为no。

2、Yes-no-like：在语义上等同于yes-no，但使用了明显不同的词，如true/false，positive/negative

3、Arbitrary：模型被期望预测与隐含任务没有语义关系的任意单词，例如，“cat”表示蕴含，“dog”表示非蕴含。

4、Reversed：模型被期望预测与（直观的）yes-no和yes-no-like标签的相反的结果，例如，“否”表示蕴含，“是”表示非蕴含。

Result

对于ALBERT和T0，我们发现，使用yes-no进行训练的模型比那些使用yes-no-like进行训练的模型学习的要快得多，而且比那些使用任意和反向目标词进行训练的模型要快得多。具体如Figure 5所示

通过综合所有的模板和目标的组合，Figure 16证实了目标词的选择比模板的含义更重要。

Conclusion

在本研究中，作者用超过30个手动编写的模板和13套LM目标训练几个模型。结果发现，模型在具有误导性和不相关的模板下的学习速度通常与在具有指导性的模板下一样快，而且目标词的选择超过了整体提示的意义。虽然模型并没有完全忽略提示的含义，但结果与文献中的一般假设（即模型使用提示作为语义上有意义的任务指令，其方式类似于人类对指令的使用）相矛盾。

这篇论文其实还是非常有意义的，感兴趣者可以详读一下原文。