上下文鲁棒知识编辑用于语言模型-CSDN博客

本文链接：https://blog.csdn.net/u013524655/article/details/148370342

朴海婉 ${ }^{1 *}$ , 崔圭彬 ${ }^{1 *}$ , 金珉俊 ${ }^{2}$ , 赵友汉 $}^{1 \dagger}$
${ }^{1}$ 首尔国立大学数据科学研究生院,
${ }^{2}$ 光州科学技术院电气工程与计算机科学系
{dellaanima2,yeppi315,yohan.jo}@snu.ac.kr
minjun01@gist.ac.kr

摘要

知识编辑（KE）方法为修改大型语言模型中的知识提供了一种有效方式。当前的KE评估通常仅通过考虑被编辑的知识来评估编辑的成功，而没有上下文前置信息。然而，在实际应用中，前置上下文往往会触发原始知识的检索，并削弱预期的编辑效果。为了解决这一问题，我们开发了CHED——一个旨在评估KE方法上下文鲁棒性的基准。在CHED上的评估显示，当存在前置上下文时，这些方法往往失败。为了缓解这一缺陷，我们引入了CoRE，一种设计用于通过最小化模型对编辑知识解码过程中隐藏状态的上下文敏感性方差来增强上下文鲁棒性的KE方法。该方法不仅提高了在存在前置上下文情况下的编辑成功率，还保留了模型的整体能力。我们还深入分析了用户话语与助手回应作为前置上下文时的不同影响，并剖析注意力得分模式以评估特定标记对编辑成功的影响。我们在 https://github.com/holilab/CoRE 公开了我们的数据集和代码。

1 引言

最近的大型语言模型（LLMs）表现出新兴的智能，这主要归功于从训练数据中获取的广泛知识。然而，其中一些知识可能已经过时或需要修正或删除（Ji等，2023；Zhao等，2024）。例如，“Tim Cook为Apple工作”这条知识可能需要编辑为“Tim Cook为Amazon工作”。由于重新训练大型模型成本高昂，知识编辑领域专注于仅修改相关的

图1：在添加前缀上下文后知识编辑失败的例子，其中‘iPhone’获得了最高注意力。Logit镜头显示，原始知识‘Apple’在后续层中逐渐浮现。
知识子集或利用辅助网络或记忆（Yao等，2023；Zhang等，2023）。目标是确保模型生成编辑后的知识而非原始知识。

以往的工作通常通过测量模型在没有任何前置上下文的情况下生成编辑后知识的概率来评估知识编辑的成功率。然而，这种设置并不现实，因为编辑后的知识通常期望出现在更广泛的上下文中或对话中间。如图1所示，在这种情况下，对话历史往往干扰模型，导致其恢复到原始知识。这就需要（1）一个具有挑战性的基准来评估在存在上下文（尤其是干扰性上下文）时编辑的成功程度，以及（2）对前置上下文具有鲁棒性的方法。

为了解决第一个需求，我们引入了CHED: Contextual Hop Editing Dataset，这是一个新的基准，

*同等贡献。
${ }^{\dagger}$ 对应作者。
用来评估知识编辑方法的上下文鲁棒性（§3）。CHED通过在编辑提示前添加前缀上下文实现这一点。例如，像图1中的“谁负责开发iPhone？”这样的前缀上下文可以添加到编辑提示“Tim Cook为”之前。在收集这些前缀上下文时，一个关键观察是，前缀上下文中的实体往往获得不成比例的高注意力得分（§5.6），当它们与原始知识有强语义相关性时（例如，图1中的“iPhone”）。基于此，我们使用Wikidata构建前缀上下文，选择与原始知识的主题和对象相连的实体，并生成可以自然地出现在知识陈述之前的句子。结果，这些前缀上下文和其中高度相关的词分散了模型对编辑知识的回忆，使CHED成为评估LLM真实世界应用场景中知识编辑方法上下文鲁棒性的有效基准。

为了解决第二个问题，我们提出了CoRE：上下文鲁棒编辑，一种增强上下文鲁棒性的知识编辑方法（§4）。它建立在广为采用的定位然后编辑方法上，直接修改模型参数以编辑知识。这种方法因其实用性而闻名，即使在大量事实被编辑时仍然保持稳健性和可扩展性。CoRE的核心思想是在知识编辑期间添加干扰性前缀上下文，并最小化在这些前缀上下文中解码编辑知识时模型隐藏状态的方差。这种简单的正则化有效地确保只对参数进行必要的修改，防止过度拟合不同的前缀上下文并增强上下文鲁棒性。

我们的广泛评估验证了CHED和CoRE。来自CHED的前缀上下文相较于无上下文条件，在所有编辑方法中都导致了显著的性能下降。我们还发现，对于相同的前缀上下文，当上下文作为用户话语提供时，模型比作为自身提供的更容易分心。然而，我们的CoRE方法显著缩小了知识编辑性能的差距，甚至在一般能力和流畅性方面始终保持高性能。我们通过深入分析模型的注意力模式提供了解释。

我们的贡献如下：(1) 我们引入了CHED数据集，一个评估知识编辑方法上下文鲁棒性的基准；(2) 我们提出了CoRE，一种通过集成前缀上下文和正则化隐藏状态方差来增强上下文鲁棒性的知识编辑方法；(3) 我们提供了前缀上下文和CoRE方法对不同影响的深入分析。总体而言，这些贡献强调了在知识编辑中评估和增强上下文鲁棒性的重要性。

2 相关工作

知识编辑知识编辑（KE）是一个致力于更新语言模型内部表示以纳入新事实信息而不需完全重新训练的领域。在此背景下，事实知识通常表示为元组 $(s, r, o)$ ，代表主体-关系-客体关联。给定一个现有的事实关联 $(s, r, o)$ ，KE的目标是将其更新为一个新的事实关联 $(s,r,o∗)\left(s, r, o^{*}\right)$ ，其中 $o^{*}$ 是新的客体。

数据集和基准 CounterFact (Meng等，2022b) 和 zsRE (Levy等，2017) 已被广泛用于评估KE方法。为了评估更广泛的语言现象和关系复杂性，其他基准也被引入，例如 MQuAKE (Zhong等，2023)，CounterFact+ (Hoelscher-Obermaier等，2023) 和 RippleEdits (Cohen等，2023)。MQuAKE 编辑多条知识并评估综合多跳问题，从而拓宽了语义变化的评估范围。CounterFact+ 试图在评估时添加一句话，通过从CounterFact中检索与其他样本共享相同 $r$ 和 $o$ 的编辑三元组，并将这些样本放在当前编辑三元组之前。最后，RippleEdits 通过测试模型是否正确更新不一致的相关事实来评估涟漪效应。

尽管如此，前缀上下文对知识编辑的影响尚未得到充分研究。我们的CHED数据集精心策划了与编辑知识高度相关且干扰性强的前缀上下文，同时还能检查它们与知识陈述中的 $s, o$ 和 $o^{*}$ 的相关性如何促成干扰。

编辑方法近期关于知识编辑的研究可以根据模型参数是否保留或修改分为两类（Yao等，2023）。虽然权重保留方法通

图2：CHED构造过程说明

常通过添加辅助结构来解决每个编辑要求（Huang等，2023；Hartvigsen等，2023；Zheng等，2023a；Mitchell等，2022b），但随着编辑数量的增长，它们可能会面临可扩展性挑战。

相比之下，权重修改 方法直接改变模型参数以学习新信息，使其在进行重大更新时更加灵活。这些方法可以进一步分为两种范式：元学习 和 定位然后编辑。元学习 方法训练超网络以生成编辑参数，但在处理大量编辑时往往难以泛化（Mitchell等，2022a；De Cao等，2021）。定位然后编辑 方法确定模型中需要更改的具体权重。一个突出的例子是MEMIT（Meng等，2022b），它编辑早期至中期的Transformer层，并启发了后续方法如PMET（Li等，2023）、EMMET（Gupta等，2024b）和JEEP（Shi等，2024）。

作为迈向上下文鲁棒编辑的第一步，我们的CoRE方法专注于 定位然后编辑 范式，因为它能够在支持重大编辑的同时保持模型性能的能力。然而，我们承认检查和改进其他范式编辑方法的上下文鲁棒性的重要性，并将其留给未来工作。

3 CHED: 上下文跳跃编辑数据集

正如前一节所讨论的，大多数现有的知识编辑数据集要么缺乏前缀上下文，要么依赖于无法反映现实情境的句子。这种设置与现实世界的LLM使用不同，在现实世界中，编辑后的知识通常期望出现在对用户提示的响应中或相关上下文之后。因此，知识编辑方法的有效性通常被高估。为了解决这一差距，我们构建了 CHED（Contextual Hop Editing Dataset），它将知识陈述与相关的前缀上下文相关联。这提供了一个更现实和具有挑战性的评估环境，干扰LLM在生成编辑后的知识时的表现。

3.1 跳跃词收集（图2-A）

CHED的一个关键思想是包括在前缀上下文中与原始和编辑知识语义相关的词，因为它们强烈影响编辑知识的生成（如图1所示）。为此，CHED基于CounterFact中的21,919个实例进行扩展，每个实例由一个事实三元组 (s, r, o) 及其编辑后的对应物 (s, r, o*) 组成。对于每个实例，我们通过提取在Wikidata中通过任何可用关系连接到 s, o, 和 o* 的所有实体来收集一跳词。这些 跳跃词 预计会自然出现在每个实例的周围上下文中，并分散生成 (s, r, o*) 的注意力。我们将与 s, o, 和 o* 对应的跳跃词集合分别表示为 s_hop, o_hop, 和 o_hop。这总共产生了13,208,725个跳跃词。

接下来，我们过滤掉已经在事实三元组中存在的实体，以及仅由特殊符号、地址或数值组成的实体。之后，我们丢弃了在CounterFact中找不到跳跃词的137个三元组实例。结果，我们最终确定了一个包含21,782个三元组和4,346,604个跳跃词的数据集。

3.2 上下文词选择（图2-B）

收集到的跳跃词只有117,894个唯一词，表明一些词在许多事实三元组中重复出现（见附录A. 1的详细信息）。这种不平衡表明，低频跳跃词与事实三元组中的特定实体更独特地相关联。例如，在Michael Jordan的跳跃词中，高度常见和通用的术语在整个跳跃词集中出现得更频繁（例如，“English”出现了10,664次），而更具特征性的词（例如，“Magic Johnson”仅出现一次）。基于此，我们假设这种独特的跳跃词在放置在编辑句子 $(s, r)$ 之前时，可能对上下文产生更强的影响。这在我们的分析中得到了验证（表1），其中用低频词构建的句子大幅降低了编辑成功率，而用高频词构建的句子在经过MEMIT编辑后并未显示出有意义的下降。更多细节请参阅附录A.4。

我们探索了额外的标准来识别与给定事实三元组中的实体紧密且独特相关的词。例如，我们考虑了与主实体基于BERT嵌入具有高余弦相似度的跳跃词，以捕捉语义接近性。此外，我们还测量了跳跃词与实体共现的概率。表2总结了用于跳跃词选择的标准。

条件	$\mathrm{x}_{\text {hop }}$	$\mathrm{o}_{\text {hop }}$	$\mathrm{o}^{*}{ }_{\text {hop }}$
低频率	$\%$	$\%$	$\%$
高频率	$\%$	$\%$	$\%$

表1：跳跃词频率的效果。在未添加前缀上下文时的编辑成功率是 $\%$ 。

方法	描述
a) 频率	选择在语料库中频率最低的5个词
b) 相似性	选择与主实体具有最高余弦相似度的5个词
c) 频率-相似性	获取10个频率最低的词，选择与主实体具有最高余弦相似度的5个词
d) 相似性-频率	获取与主实体具有最高余弦相似度的10个词，选择频率最低的5个词
e) 日志概率	选择 “[主实体] 和 ]跳跃词]” 概率最高的5个词
f) 随机	随机抽样5个词，没有任何约束

表2：跳跃词选择的方法
pendix A. 1 for details). 不平衡表明，低频跳跃词与事实三元组中的特定实体更独特地相关联。例如，在Michael Jordan的跳跃词中，高度常见的通用术语在整个跳跃词集中出现得更为频繁（例如，“English” 出现了10,664次），而更具特征性的词（例如，“Magic Johnson”仅出现一次）。基于此，我们假设这种独特的跳跃词在放置在编辑句子 $(s, r)$ 前时，可能对上下文产生更强的影响。这在我们的分析中得到了验证（表1），其中用低频词构建的句子显著降低了编辑成功率，而用高频词构建的句子在经过MEMIT编辑后并未显示出有意义的下降。更多细节请参阅附录A.4。

图3显示了六个标准对编辑成功率的影响。Freq-Sim方法在前缀上下文包含 $(69.1%)o_{\text {hop }}(69.1 \%)$ 时得分最低，表明它最有效地

图3：对于 $o_{\text {hop }}$ 和 $∗o_{\text {hop }}^{*}$ ，编辑成功率，实验设置与表1相同，但在5000个样本上进行评估。详细结果见附录A.5。
降级了模型对编辑知识的回忆。此外，当前缀上下文包含 $∗(78.1%)o_{\text {hop }}^{*}(78.1 \%)$ 时，它取得了第二高的分数，正如人们自然期望的那样。因此，我们选择了Freq-Sim作为最终的跳跃词选择标准。

最后一个步骤是使用前一部分的跳跃词生成前缀上下文句子。我们使用GPT-40 mini并遵循三个关键约束。首先，前缀上下文应平滑过渡到编辑提示 $(s, r)$ ，避免突然的话题变化，确保连贯性。其次，每个前缀上下文应包含指定的跳跃词，以确保生成的句子明显反映出这个单词的影响。最后，每个前缀上下文应包含最多20个单词，以保持清晰和信息丰富。

因此，我们构建了一个包含314,385个跳跃词前缀上下文句子的数据集，这些句子来源于21,782个事实三元组。此外，为了评估直接包含 $s, o$ 或 $o *$ （而不是它们的跳跃词）的前缀上下文的影响，我们在相同的约束下生成了326,730个前缀上下文——这次直接包含那些单词。表3展示了示例前缀上下文，完整的提示设计、验证程序和跳跃词前缀上下文的数据集统计信息可以在附录A.6和附录A.8中找到。

此外，我们使用G-Eval（Liu等，2023）与GPT-4o-mini定量评估连贯性。六种类型的前缀上下文的平均连贯性评分在1到5的范围内为3.4，表明适度的可能性。重要的是，如果我们排除内容必然偏离现实世界事实的 $o^{*}$ 和 $∗o_{\text {hop }}^{*}$ 类型，平均连贯性评分上升到3.8。此外，平均评分不再增加，因为我们主要选择了低频跳跃词（如第 $§3.2\S 3.2$ 节所述），这内在地限制了连贯性潜力；然而，由于编辑必须在任何前置上下文中保持有效，我们慎重地优先考虑分散性，并认为这种水平的连贯性是可以接受的。G-Eval过程和结果的详细解释见附录A.7。

4 CoRE：上下文鲁棒编辑

在本节中，我们介绍上下文鲁棒编辑（CoRE），这是一种提高对各种上下文鲁棒性的知识编辑方法。我们基于locate-then-edit方法，如MEMIT（Meng等，2022b），因为它能够进行大量编辑。我们首先提供MEMIT的初步概述（§4.1），然后详细介绍我们的CoRE方法（§4.2）。

4.1 初步概念

变压器MLP作为键值联想记忆 MEMIT 将Transformer中的MLP层解释为线性联想记忆（Anderson, 1972; Kohonen, 1972），其中投影层的权重存储键值关联。例如，当提供诸如 “Tim Cook, who works for” 的提示作为输入时，由第一个MLP层编码的主体最后一个标记（即 “Cook”）的隐藏状态充当键向量k。当 $k\mathbf{k}$ 通过第二个MLP层 $W_{\text {proj }}$ 时，检索并嵌入与主体相关的存储关联，输出值向量 $v\mathbf{v}$ 包含有关关联对象的信息（例如，Apple）。在随后的层中，注意力机制细化并传播从值向量中召回的知识，引导模型生成标记 $o$ （Meng等，2022a；Geva等，2023）。

MEMIT的目标函数 MEMIT通过改变其权重从 $W$ 到 $W^\widehat{W}$ 来修改键向量和值向量之间的映射，即MLP的投影层，使得键 $k\mathbf{k}$ 被重新映射到新的值向量 $v∗\mathbf{v}^{*}$ ，以最大化 $o^{*}$ 的生成概率。正式地，设 $(KE,VE)\left(K_{E}, V_{E}\right)$ 表示新键和值，代表所需的编辑，设 $K_{0}$ 表示与应保持不变的事实相对应的键向量集。MEMIT的目标是：

$arg⁡min⁡W^∥W^KE−VE∥F2+λ∥W^K0−W0K0∥F2 \arg \min \widehat{W}\left\|\widehat{W} K_{E}-V_{E}\right\|_{F}^{2}+\lambda\left\|\widehat{W} K_{0}-W_{0} K_{0}\right\|_{F}^{2}$

第一项强制执行知识更新，第二项防止意外编辑，由 $λ\lambda$ 控制。

键值向量提取一个关键挑战是构建编码事实编辑 $\rightarrow\left(s, r, o^{*}\right) . \mathbf{k}$ 和 $v\mathbf{v}$ 从包含 $s$ 和 $r$ 的提示 $p$ 中派生。在MEMIT中，各种前缀上下文 $x_{j}$ 被附加到 $p$ 上以提高上下文泛化能力。给定 $N$ 个前缀上下文，键向量派生为 $k=1N∑j=1Nk(xj+p)\mathbf{k}=\frac{1}{N} \sum_{j=1}^{N} k\left(x_{j}+p\right)$ ，其中 $k(⋅)k(\cdot)$ 通过从选定层中提取主题最后一个标记的MLP激活获得。完整的推导推迟到附录B.1。

接下来，通过最小化以下损失获得生成新知识 $o^{*}$ 的编辑值向量 $v∗\mathbf{v}^{*}$ ：

$\begin{aligned} \mathbf{v}^{*}=\underset{\mathbf{v}}{\operatorname{argmin}} & \frac{1}{N} \sum_{j=1}^{N}\left[-\log \mathbb{P}_{G\left(h^{l}=\mathbf{v}\right)}\left[o^{*} \mid z_{j}\right]\right] \\ & +D_{\mathrm{KL}}(\mathbf{v}), \text { where } z_{j}=x_{j}+p \end{aligned}$

其中 $G(hl=v)G\left(h^{l}=\mathbf{v}\right)$ 表示当隐藏层 $h^{l}$ 设置为 $v\mathbf{v}$ 时的生成输出。第一项确保在提供提示 $x_{j}+p$ 时生成 $o^{*}$ ，而 $DKL(v)D_{\mathrm{KL}}(\mathbf{v})$ 是一个KL散度惩罚项，用于保留其他相关知识。完整推导可在附录B.2中找到。

4.2 CoRE

在本节中，我们提出我们的CoRE方法，通过整合两种策略来改善关键值提取的上下文鲁棒性（图4）。首先，我们通过使用 s, o, 和 o** 来增强用于检索键和值向量的前缀上下文（ $x_{j}$ 在公式（2）中）

图4：CoRE方法

其次，我们通过在从 v 更新到 v* 时正则化使用不同前缀上下文获得的价值向量之间的不一致性，因为它们可能代表上下文特定信号而非知识编辑本身。

多样化前缀上下文（图4-A） 用于提取键值对的前缀上下文 x^j 至关重要，因为它们将上下文信息嵌入键和值向量中，影响编辑事实的生成。然而，MEMIT简单地构造前缀上下文为从少量预定义词（如*“The”, “Therefore”, “Because”, “I”, “You”）开始的序列。结果，这些前缀上下文对正在编辑的事实几乎没有影响，因此很难优化能应对各种干扰上下文的 v。

为了解决这个问题，CoRE使用s, o, 和 o* 的组合作为每个编辑三元组的前缀上下文（如*“s + o”）。这种策略是有效的，因为这些词本质上与原始和编辑事实高度相关。如图5左图所示，使用s*, o, 和 o* 的前缀上下文导致价值向量的显著更高方差，相比于使用常用词，表明这些向量有效地捕捉了更广泛的上下文范围。

跨前缀表示正则化（图4-B） 虽然价值向量的高方差有助于优化 v* 以应对各种上下文，但如果不进行正则化优化 v*，可能导致对个别上下文的过度拟合。为进一步强调这个问题的重要性，图5（红线）绘制了通过MEMIT进行知识编辑后价值向量在前缀上下文之间（来自CHED）的成对L2距离，相对于编辑前的距离。差异从0清楚地表明，前缀上下文间的价值向量差异在模型编辑后被放大。这可能导致对上下文的过度拟合并降低泛化能力。

为了解决这个问题，我们将原始目标（公式2）扩展如下：

$\mathbf{v}^* = \underset{\mathbf{v}}{\text{argmin}} \mathcal{L}_{\text{orig}}(\mathbf{v}) + \mathcal{L}_{\text{prefix}} \tag{3}$

其中 $Lprefix\mathcal{L}_{\text{prefix}}$ 定义如下。对于每一层 $ℓ∈L\ell \in \mathcal{L}$ ，我们计算 N 隐藏状态 { $h1l,…,hNl\mathbf{h}_1^l, \ldots, \mathbf{h}_N^l$ } ⊂ $RD\mathbb{R}^D$ ，每个对应于一个不同的前缀上下文。我们通过惩罚每对隐藏状态之间的平方L2距离来实施正则化：

$\mathcal{L}_{\text{prefix}} = \frac{\lambda}{LD} \sum_{\ell \in \mathcal{L}} \sum_{1 \le i < j \le N} \| \mathbf{h}_i^l - \mathbf{h}_j^l \|^{2}. \tag{4}$

超参数 $λ\lambda$ 控制正则化的强度。如图5右图所示，实施 $Lprefix\mathcal{L}_{\text{prefix}}$ （蓝线）相比未正则化的模型（红线）显著减少了前缀上下文间的隐藏状态变化。

5 实验

5.1 指标

我们采用严格的、基于生成的标准：如果模型的输出（最多50个标记）包含 o* 并完全省略 o，则认为编辑成功。我们采用这种方法是因为先前工作中常用的基于概率的评估方法不能保证实际上生成了编辑后的知识 o*，也不能防止模型最初生成 o* 后又恢复到 o 的情况，如附录D中的表11所示。我们从五个互补维度评估性能——有效性、泛化性、特异性、一般能力和流畅性——简要总结如下。

有效性：如果模型生成 o* 而不生成 o，则认为编辑成功。
- 泛化性（Gen）：此指标类似于有效性，但测试模型在改写提示下是否正确生成 o*。
- 特异性（Spe）：确保未计划编辑的知识在更新后保持不变。
- 一般能力：评估模型在五个任务中的核心能力：常识推理（CommonsenseQA (C-QA)）（Talmor等，2019）、TriviaQA (T-QA)（Joshi等，2017）中的事实回忆、LAMBADA (LAM)（Paperno等，2016）中的话语上下文预测、MMLU（Hendrycks等，2021）中的多种主题多任务表现以及LiveCodeBench (L-Code)（Jain等，2024）中的代码生成。
- 流畅性：通过N-gram重复检测由编辑引入的不流畅性，惩罚过多的重复。
详情见附录D。

5.2 实验设置

数据集和模型我们的实验使用 Llama-3-8B-Instruct (Grattafiori等，2024) 和 Mistral-7B-Instruct (Jiang等，2023)。对于数据集，我们在 CHED、CounterFact (Meng等，2022b) 和 zsRE
(Levy等，2017) 上进行实验。
基线方法在本文中，我们重点比较 locate-then-edit 方法，因为它们可靠地处理大量编辑，包括 JEEP (Shi等，2024)、EMMET (Gupta等，2024b) 和 PMET (Li等，2023)。我们还包含了 FT-M (Zhang等，2024b) 作为一种代表性微调方法。尽管我们实验了两种代表性方法——元学习方法 MEND (Mitchell等，2022a) 和权重保留方法 IKE (Zheng等，2023a)——两者在我们更严格的生成基础指标下仅达到约 0-1 % 的编辑成功率，实际上相当于在1000次编辑中完全失败。因此，我们省略了它们在表4中的内容。关于每种方法、其结果和超参数设置的详细信息见附录 F.7。

5.3 主要结果

CHED 和 CounterFact 表4 显示了每种方法1000次编辑的结果。当使用由编辑三元组 $(s,o,o∗)\left(s, o, o^{*}\right)$ 中的确切词构成的前缀上下文时，Llama3 对于 $s$ 的表现下降了 $\%$ ，对于 $o$ 下降了 $\%$ ，但对于 $o^{*}$ 提升了 $\%$ ，而 Mistral 分别下降了 $\%$ 、 $\%$ 和 $\%$ 。同样，使用由跳跃词（ $s_{\text {hop }}, o_{\text {hop }}$ , $∗o_{\text {hop }}^{*}$ ）构成的前缀上下文时，Llama3 的表现分别下降了 $\%$ 、 $\%$ 和 $\%$ ，而 Mistral 的表现分别下降了 $\%$ 、 $\%$ 和 $\%$ 。虽然直接包含 $o$ 导致最大的准确率下降，但跳跃词前缀上下文也显著降低了性能。这表明

方法	效果	总体平均	效力						生成	特异	平均	综合能力						平均	流畅性 N-gram
			无上下文	$s$	$o$	$o *$	$s_{\text {hosp }}$	$o_{\text {hosp }}$	$∗o_{\text {hosp }}^{*}$			$C$ -QA	$T$ -QA	LAM	MMLU	L-Code
Llama3	基础	30.9	1.3	1.1	0.4	40.1	0.9	0.9	13.0	1.4	48.1	11.9	74.5	63.9	31.0	66.9	13.3	49.9	11.1
	MEMIT	60.7	90.9	86.4	46.4	93.6	82.2	72.7	88.0	73.2	34.7	74.2	73.5	57.1	28.7	63.4	13.0	47.1	13.1
	JEEP	53.3	73.5	67.9	35.9	82.3	65.2	56.0	72.1	51.9	41.0	60.6	65.3	53.6	34.3	63.4	12.8	45.9	21.8
	PMET	56.2	79.1	67.8	36.0	85.2	65.7	57.6	76.3	59.7	47.5	63.9	71.7	57.9	34.8	64.8	13.4	48.5	16.5
	EMMET	44.4	94.2	93.5	78.0	95.3	92.5	90.5	93.4	80.4	14.7	81.4	0.9	21.0	0.0	15.1	0.0	7.4	29.3
	FT-M	40.0	73.7	69.4	67.0	69.6	67.1	63.7	65.8	58.3	36.0	63.4	32.5	6.6	0.0	44.0	0.0	16.6	128.9
	CoRE-p	62.6	92.7	87.7	49.8	94.8	87.0	80.1	91.7	79.1	35.3	77.6	72.1	57.1	32.6	63.4	13.0	47.6	14.0
	CoRE-p+r	63.4	92.4	89.0	55.4	95.1	89.0	83.1	93.2	79.7	34.8	79.1	72.2	58.1	30.7	63.8	13.2	47.6	13.3
	基础	30.7	1.0	0.9	0.3	32.6	1.1	1.1	11.7	1.4	40.3	10.0	71.5	62.5	55.5	60.8	6.7	51.4	6.3
	MEMIT	57.9	86.5	80.1	50.5	84.0	78.0	71.0	81.6	72.3	25.9	70.0	66.3	52.7	48.5	55.6	5.8	45.8	6.1
	JEEP	48.9	73.7	48.7	21.2	64.7	42.1	35.1	56.1	42.0	38.0	46.8	71.2	61.4	55.3	60.4	6.8	51.0	5.9
	PMET	56.5	81.6	67.6	41.5	76.3	63.9	56.7	74.2	61.0	42.7	EMMET	42.4	83.1	79.6	61.5	85.2	77.6	74.3
	FT-M	42.4	55.3	44.3	36.6	42.1	43.0	36.9	40.9	33.0	59.8	41.3	71.4	32.7	52.9	53.4	7.3	43.5	8.5
	CoRE-p	58.7	86.6	82.3	58.8	87.3	80.3	74.2	84.2	71.8	24.2	72.2	65.5	52.7	46.5	54.4	6.4	45.1	6.1
	CoRE-p+r	60.3	88.3	83.5	63.0	88.9	83.8	79.8	87.1	77.1	25.6	75.2	65.1	53.3	46.7	54.7	6.6	45.3	6.2

表4：CHED和CounterFact上的性能。有效性（排除无上下文）在CHED上测量，而无上下文和泛化特异性来自CounterFact。总平均值是有效性、生成、特异性和综合能力的平均值。注意：CoRE-p仅应用上下文多样化的前缀上下文方法，而CoRE-p+r进一步添加了跨前缀表示正则化项。
编辑模型最初生成 $o^{*}$ 但随后恢复到 $o$ 的情况，如附录D中的表11所示。我们在五个互补维度上评估性能——有效性、泛化性、特异性、综合能力和流畅性——简要总结如下。

有效性：如果模型生成 $o^{*}$ 而不生成 $o$ ，则认为编辑成功。
- 泛化性（Gen）：此指标类似于有效性，但测试模型在改写提示下是否正确生成 $o^{*}$ 。
- 特异性（Spe）：确保未计划编辑的知识在更新后保持不变。
- 综合能力：评估模型在五个任务中的核心能力：常识推理（CommonsenseQA (C-QA)）（Talmor等，2019）、事实回忆（TriviaQA (T-QA)）（Joshi等，2017）、LAMBADA话语上下文预测（LAM）（Paperno等，2016）、MMLU中多种主题的多任务表现（Hendrycks等，2021）以及LiveCodeBench代码生成（L-Code）（Jain等，2024）。
- 流畅性：通过N-gram重复检测由编辑引入的不流畅性，惩罚过多的重复。
详情见附录D。

5.2 实验设置

5.3 主要结果

对于 Llama3，CoRE 在有效性、泛化性和特异性方面的平均得分最高，同时在综合能力和流畅性方面与 MEMIT 竞争。尽管在没有上下文的情况下 CoRE 改进了 MEMIT 的有效性，但在存在前缀上下文的情况下改进更为显著，这表明其在增强上下文鲁棒性方面的有效性。EMMET 展现了上下文鲁棒的有效性，但在特异性和综合能力方面完全崩溃。Mistral 表现出类似的模式，CoRE 在所有基线方法中显著胜出。虽然一些基线方法在综合能力和流畅性方面表现更好，但这以显著降低知识编辑性能为代价，而这正是主要目标。
zsRE 表5展示了在zsRE数据集上1000次编辑的结果。与CounterFact和CHED不同，后者由陈述句组成，zsRE由问题组成。正如结果所示，CoRE在有效性、泛化性和特异性得分上最高。总体而言，这些发现进一步证明了其在知识编辑方面的有效性。更多详细结果请参见附录中的表17。

5.4 用户与助手上下文

最近的语言模型通常使用指令模板训练对话（Touvron等，2023；Grattafiori等，2024）。鉴于这种训练范式区分了用户和助手的角色，前缀上下文是由用户提供还是由模型生成可能会影响模型对编辑知识的回忆。为此分析，我们比较了两种情况：（1）在没有任何指令模板的情况下附加前缀上下文（原始设置），以及（2）将上下文作为用户的发言使用用户模板呈现，然后使用助手模板生成编辑知识。我们使用 Llama-3-

方法	效果	泛化	特异性	平均
	无上下文	性	性
基础	2.7	3.3	30.3	-
MEMIT	48.7	44.6	28.6	40.6
JEEP	29.9	19.5	23.8	24.4
PMET	43.5	29.2	29.4	34.0
FT-M	49.5	45.1	1.0	31.9
CoRE-p+r	50.0	46.0	30.2	42.1

表5：在zsRE（Llama3）上的性能。
该现象显示，即使是间接相关的上下文也会大幅减少编辑成功率。

对于Llama3，CoRE在有效性、泛化性和特异性方面的平均得分最高，同时在综合能力和流畅性方面与MEMIT竞争。尽管在没有上下文的情况下CoRE改进了MEMIT的有效性，但在存在前缀上下文时，改进更为显著，这表明其在增强上下文鲁棒性方面的有效性。EMMET表现出上下文鲁棒的有效性，但在特异性和综合能力方面完全崩溃。Mistral表现出类似的模式，CoRE在所有基线方法中显著胜出。尽管某些基线方法在综合能力和流畅性方面表现更好，但这以显著降低知识编辑性能为代价，而这正是主要目标。
zsRE 表5展示了在zsRE数据集上1000次编辑的结果。与CounterFact和CHED不同，后者由声明句组成，zsRE由问题组成。如结果所示，CoRE在有效性、泛化性和特异性得分上最高。总体而言，这些发现进一步证明了其在知识编辑方面的有效性。更多详细结果请参见附录中的表17。

5.4 用户与助手上下文

最近的语言模型通常使用指令模板训练对话（Touvron等，2023；Grattafiori等，2024）。鉴于这种训练范式区分了用户和助手的角色，前缀上下文是由用户提供还是由模型生成可能会影响模型对编辑知识的回忆。为此分析，我们比较了两种条件：（1）在没有任何指令模板的情况下附加前缀上下文（原始设置），以及（2）将上下文作为用户的发言使用用户模板呈现，然后使用助手模板生成编辑知识。我们使用Llama-3-

方法	类型	$s_{\text {hop }}$	$o_{\text {hop }}$	$∗o_{\text {hop }}^{*}$	$KaTeX parse error: Expected 'EOF', got '_' at position 14: o_{\text {hop_̲chat }}$	$KaTeX parse error: Expected 'EOF', got '_' at position 14: o_{\text {hop_̲chat }}$	$KaTeX parse error: Expected 'EOF', got '_' at position 14: o_{\text {hop_̲chat }}^{*}$
MEMIT	CHED	89.6	86.5	88.7	85.0	73.9	85.4
	随机跳跃词	90.8	88.2	90.2	86.2	85.2	85.4
	随机上下文	94.6	92.4	93.4	89.2	87.4	89.7
CoRE	CHED	95.1	93.8	96.6	91.2	84.9	94.6
	随机跳跃词	94.9	94.5	96.7	92.6	90.1	91.9
	随机上下文	96.7	95.4	96.5	93.4	92.2	93.5

表6：助理与用户上下文之间的比较（$$ 5.4 & $ 5.5$）。(随机跳跃词：随机跳跃词，随机上下文：随机上下文)。

前缀类型	$s_{\text {hop }}$	$o_{\text {hop }}$	$∗o_{\text {hop }}^{*}$
跳跃词-仅有	$\%$	$\%$	$\%$
完整句子	$\%$	$\%$	$\%$

表7：使用跳跃词-仅有与完整句子前缀上下文时的编辑成功率比较（无上下文基线： $\%$ ），使用与表1相同的编辑设置。

8B-Instruct，并基于在10个标记窗口内出现 $o^{*}$ 且不存在 $o$ 来衡量知识编辑的成功。

表6展示了原始设置（子脚本跳）和用户上下文设置（子脚本跳聊）的结果。无论对于MEMIT（第1行）还是CoRE（第4行），当提供用户回合的前缀上下文时，编辑成功率显著下降。然而，CoRE缩小了相对于MEMIT的性能差距，展示了其上下文鲁棒性。我们推测这种现象源于语言模型被大量训练以与用户偏好对齐。因此，当信息由用户提供时，它们可能会过度关注相同的信息，并变得更加容易分心。这些发现为未来关于聊天场景中上下文鲁棒性的研究指出了一个有趣的方向。更多信息请参阅附录E.1。

5.5 跳跃词的影响

我们调查了在CHED上测试知识编辑方法时有效性下降是否仅仅是由于前缀文本的存在，还是具体受到精心挑选的跳跃词的影响。我们进行了一个消融实验，设置了两个条件：（1）用随机词替换CHED中的每个跳跃词，（2）附加随机前缀上下文。

如表6所示，用随机词替换精心挑选的跳跃词（“随机跳跃词”行）提高了相对于CHED的有效性，尤其是对于 $o$ 。使用随机上下文（“随机上下文”行）进一步提高有效性，对其影响较小

图6：使用CHED数据集的ACS。虚线水平线代表模型在上下文中均匀随机选择标记时的ACS（0.21）。

在我们的CHED构建中，跳跃词选择和前缀上下文生成都是关键，其中跳跃词选择似乎具有更主导的影响。详见附录E.2。

此外，为了检查跳跃词的影响，我们将由跳跃词组成的前缀上下文（例如，“Magic Johnson”）与使用相同跳跃词生成的完整句子（例如，“Magic Johnson’s impact on the game…”）的效果进行了比较。结果显示，在这两种设置下的有效性差异很小，平均约为0.4%，表明单独的跳跃词已经大大贡献了分散性。详细的数值结果见表7。

5.6 平均贡献分数

我们根据注意力分数更定量地分析跳跃词的影响。具体来说，我们定义了一个度量标准，平均贡献分数（ACS），即在最后一步知识生成过程中，跳跃词在上下文中获得最高注意力权重的比例。

为了评估ACS，我们通过汇总预训练Transformer模型中所有层和头的注意力权重，测量前缀上下文中每个标记 tⁱ 对最终标记 t_last 的逻辑连接程度。

令 A_ℓ,h(t_i, t_last) 表示从层 ℓ 和头 h 到标记 t_last 的注意力权重。设 L 为层数，H 为每层头数。我们定义标记级平均注意力分数 A_i→last 为：

$\overline{A}_{i \rightarrow \text{last}} = \frac{1}{L \cdot H} \sum_{\ell=1}^{L} \sum_{h=1}^{H} A_{\ell,h} (t_i, t_{\text{last}}). \qquad (5)$

然后定义句子级信息指示器 I_n 为：

$I_n = \begin{cases} 1 & \text{如果 } \arg \max_{i \in \text{prefix}} \overline{A}_{i \rightarrow \text{last}} = t_{\text{hop}}, \\ 0 & \text{否则。} \end{cases} \tag{6}$

最后，我们将所有 N 样本的平均信息性定义为 ACS：

$\text{ACS} = \frac{1}{N} \sum_{n=1}^{N} I_n. \tag{7}$

该值量化了 跳跃词 达到最高平均注意力分数的频率，反映了其在前缀上下文中的信息影响。

在图6中，蓝条比较了跳跃词在 CoRE 编辑前后（较深和较浅）的ACS。相比随机机会（红线），跳跃词获得了显著更多的注意力。然而，对于最分散类型的跳跃词 o_hop，经过 CoRE 编辑后模型对其的关注减少了（较浅蓝色），解释了 CoRE 的上下文鲁棒性。相反，模型对 o_hop 的关注甚至增加了。由于 o_hop 与编辑后的知识相关，这一结果表明编辑后的模型学会了从前缀上下文中提取有用的信号。图中的红条代表用户上下文设置，显示出相同的模式。详见附录E.4。

6 结论

我们介绍并发布了 CHED，这是一个旨在评估知识编辑上下文鲁棒性的基准。我们对各种方法的评估揭示了即使是那些表现良好的方法，在引入前缀上下文时往往也会失败。这一发现强调了先前知识编辑方法所忽略的方面，突显了这种评估的重要性。为了解决这一差距，我们提出了 CoRE，它增强了上下文鲁棒性。我们希望 CHED 与 CoRE 一起能够推动更上下文鲁棒、实用和可靠的现实世界应用知识编辑技术的发展。

局限性

我们仅使用从 Wikidata 关系中提取的1跳词构建了 CHED。尽管任何通过 Wikidata 关系直接连接的实体都被定义为1跳词，但这并不保证语义关系严格为一跳。例如，“美国第一夫人”可能通过“美国总统”链接到“他的配偶”，但我们并未区分这种多跳细微差别。我们还尝试包括2跳词；然而，许多这些词只与相应实体有边缘关联。因此，探索这些跳词与编辑知识之间的程度和相关性仍然是一个关键问题——这是未来工作的一个有前途的方向。对于我们的 CoRE 方法，我们基于定位-然后编辑范式，该范式在大规模编辑的同时保留了整体模型性能。我们认为进一步研究其他范式（如元学习或权重保留方法）中的上下文鲁棒性增强将是一个有益的研究方向。

伦理声明

我们的研究重点是通过知识编辑技术纠正错误和更新过时的知识，从而增强大型语言模型（LLMs）。虽然这些方法旨在提高用户效用，但如果被滥用，也可能产生误导性、有毒或有害的内容。因此，严格执行严格的道德准则和强大的安全措施至关重要，以确保任何修改都能维持整体性能并防止在适当监管措施建立之前产生不安全输出。

致谢

这项工作得到了韩国国家研究基金会（NRF）资助（RS-202400333484）以及信息与通信技术规划评估研究所（IITP）资助的支持（RS-2024-00338140，开发反映生成语言模型可持续性和最新性的学习和利用技术），均由韩国政府（MSIT）资助。

参考文献

James A. Anderson. 1972. 一种简单的神经网络生成互动记忆。数学生物科学，14(3):197-220。

Roi Cohen, Eden Biran, Ori Yoran, Amir Globerson, 和 Mor Geva. 2023. 评估语言模型中知识编辑的涟漪效应。预印本，arXiv:2307.12976。

OpenCompass 贡献者。2023. Opencompass: 基础模型的通用评估平台。https://github.com/open-compass/ opencompass。

Nicola De Cao, Wilker Aziz, 和 Ivan Titov. 2021. 在语言模型中编辑事实知识。在《2021年经验方法自然语言处理会议论文集》中，第6491-6506页，线上和多米尼加共和国蓬塔卡纳。计算语言学协会。

Mor Geva, Jasmijn Bastings, Katja Filippova, 和 Amir Globerson. 2023. 解析自回归语言模型中事实关联的回忆。在《2023年经验方法自然语言处理会议》中。

Aaron Grattafiori, Abhimanyu Dubey, Abhinav Jauhri, Abhinav Pandey, 和 Abhishek Kadian 等。2024. Llama 3 模型群。预印本，arXiv:2407.21783。

Richard A Groeneveld 和 Glen Meeden. 1984. 测量偏度和峰度。英国皇家统计学会系列D：统计学家，33(4):391399。

Akshat Gupta, Anurag Rao, 和 Gopala Anumanchipalli. 2024a. 规模化模型编辑导致渐进和灾难性遗忘。arXiv预印本 arXiv:2401.07453。

Akshat Gupta, Dev Sajnani, 和 Gopala Anumanchipalli. 2024b. 统一的模型编辑框架。arXiv预印本 arXiv:2403.14236。

Thomas Hartvigsen, Swami Sankaranarayanan, Hamid Palangi, Yoon Kim, 和 Marzyeh Ghassemi. 2023. 高雅老化：通过离散键值适配器实现终生模型编辑。在《神经信息处理系统进展》中。

Peter Hase, Mohit Bansal, Been Kim, 和 Asma Ghandeharioun. 2023. 定位是否告知编辑？令人惊讶的因果定位与语言模型知识编辑之间的差异。预印本，arXiv:2301.04213。

Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika, Dawn Song, 和 Jacob Steinhardt. 2021. 测量大规模多任务语言理解。预印本，arXiv:2009.03300。

Evan Hernandez, Arnab Sen Sharma, Tal Haklay, Kevin Meng, Martin Wattenberg, Jacob Andreas, Yonatan Belinkov, 和 David Bau. 2024. Transformer语言模型中关系解码的线性性。预印本，arXiv:2308.09124。

Jason Hoelscher-Obermaier, Julia Persson, Esben Kran, Ioannis Konstas, 和 Fazl Barez. 2023. 检测大型语言模型中的编辑失败：改进的
特异性基准。在《计算语言学协会：ACL 2023 找到的结果》中，第11548-11559页，加拿大多伦多。计算语言学协会。

Zeyu Huang, Yikang Shen, Xiaofeng Zhang, Jie Zhou, Wenge Rong, 和 Zhang Xiong. 2023. Transformerpatcher: 一个错误值得一个神经元。预印本，arXiv:2301.09785。

Naman Jain, King Han, Alex Gu, Wen-Ding Li, Fanjia Yan, Tianjun Zhang, Sida Wang, Armando Solar-Lezama, Koushik Sen, 和 Ion Stoica. 2024. Livecodebench: 大型语言模型代码评估的全面且无污染方法。预印本，arXiv:2403.07974。

Ziwei Ji, Nayeon Lee, Rita Frieske, Tiezheng Yu, Dan Su, Yan Xu, Etsuko Ishii, Ye Jin Bang, Andrea Madotto, 和 Pascale Fung. 2023. 自然语言生成中的幻觉综述。ACM Computing Surveys, 55(12):1-38。

Albert Q. Jiang, Alexandre Sablayrolles, Arthur Mensch, Chris Bamford, Devendra Singh Chaplot, Diego de las Casas, Florian Bressand, Gianna Lengyel, Guillaume Lample, Lucile Saulnier, Lélio Renard Lavaud, Marie-Anne Lachaux, Pierre Stock, Teven Le Scao, Thibaut Lavril, Thomas Wang, Timothée Lacroix, 和 William El Sayed. 2023. Mistral 7b。预印本，arXiv:2310.06825。

Mandar Joshi, Eunsol Choi, Daniel Weld, 和 Luke Zettlemoyer. 2017. TriviaQA: 一个大规模远程监督阅读理解挑战数据集。在《计算语言学协会第五十五届年会论文集》（第一卷：长篇论文）中，第1601-1611页，加拿大温哥华。计算语言学协会。

Teuvo Kohonen. 1972. 相关矩阵存储器。IEEE Transactions on Computers, C-21(4):353-359。

Woosuk Kwon, Zhuohan Li, Siyuan Zhuang, Ying Sheng, Lianmin Zheng, Cody Hao Yu, Joseph E. Gonzalez, Hao Zhang, 和 Ion Stoica. 2023. 使用分页注意力机制的大规模语言模型服务的高效内存管理。在《ACM SIGOPS 第二十九届操作系统原理研讨会论文集》中。

Omer Levy, Minjoon Seo, Eunsol Choi, 和 Luke Zettlemoyer. 2017. 零样本关系抽取通过阅读理解。在《第二十一届计算自然语言学习会议论文集》（CoNLL 2017）中，第333-342页，加拿大温哥华。计算语言学协会。

Xiaopeng Li, Shasha Li, Shezheng Song, Jing Yang, Jun Ma, 和 Jie Yu. 2023. Pmet: Transformer中的精确模型编辑。arXiv预印本 arXiv:2308.08742。

Yang Liu, Dan Iter, Yichong Xu, Shuohang Wang, Ruochen Xu, 和 Chenguang Zhu. 2023. G-eval: 使用GPT-4更好地与人类一致的自然语言生成评估。预印本，arXiv:2303.16634。

Kevin Meng, David Bau, Alex Andonian, 和 Yonatan Belinkov. 2022a. 在GPT中定位和编辑事实关联。神经信息处理系统进展，35。

Kevin Meng, Arnab Sen Sharma, Alex Andonian, Yonatan Belinkov, 和 David Bau. 2022b. 在Transformer中大规模编辑记忆。arXiv预印本 arXiv:2210.07229。

Eric Mitchell, Charles Lin, Antoine Bosselut, Chelsea Finn, 和 Christopher D Manning. 2022a. 快速大规模模型编辑。在国际学习表示会议上。

Eric Mitchell, Charles Lin, Antoine Bosselut, Chelsea Finn, 和 Christopher D. Manning. 2022b. 基于记忆的大规模模型编辑。在国际机器学习会议上。

Denis Paperno, Germán Kruszewski, Angeliki Lazaridou, Quan Ngoc Pham, Raffaella Bernardi, Sandro Pezzelle, Marco Baroni, Gemma Boleda, 和 Raquel Fernández. 2016. LAMBADA 数据集：需要广泛话语上下文的单词预测。预印本，arXiv:1606.06031。

Wenhang Shi, Yiren Chen, Shuqing Bian, Xinyi Zhang, Zhe Zhao, Pengfei Hu, Wei Lu, 和 Xiaoyong Du. 2024. 联合知识编辑用于信息丰富和概率提升。arXiv预印本 arXiv:2412.17872。

Alon Talmor, Jonathan Herzig, Nicholas Lourie, 和 Jonathan Berant. 2019. CommonsenseQA：针对常识知识的问题回答挑战。在《北美计算语言学协会2019年会议论文集》中，第4149-4158页，明尼苏达州明尼阿波利斯。计算语言学协会。

Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, 和 Amjad Almahairi 等。2023. Llama 2：开放的基础模型和微调聊天模型。预印本，arXiv:2307.09288。

Ben Wang 和 Aran Komatsuzaki. 2021. Gpt-j-6b：一个60亿参数的自回归语言模型。

Luyu Wang, Yujia Li, Ozlem Aslan, 和 Oriol Vinyals. 2021. WikiGraphs：一个维基百科文本-知识图谱配对数据集。在《第十五届基于图的自然语言处理工作坊论文集》（TextGraphs-15）中，第67-82页，墨西哥城，墨西哥。计算语言学协会。

Peng Wang, Ningyu Zhang, Bozhong Tian, Zekun Xi, Yunzhi Yao, Ziwen Xu, Mengru Wang, Shengyu Mao, Xiaohan Wang, Siyuan Cheng, Kangwei Liu, Yuansheng Ni, Guozhou Zheng, 和 Huajun Chen. 2024. Easyedit：一种易于使用的大型语言模型知识编辑框架。预印本，arXiv:2308.07269.
Yunzhi Yao, Peng Wang, Bozhong Tian, Siyuan Cheng, Zhoubo Li, Shumin Deng, Huajun Chen, 和 Ningyu Zhang. 2023. 编辑大型语言模型：问题、方法和机遇。在《2023年经验方法自然语言处理会议论文集》中，第10222-10240页，新加坡。计算语言学协会。
Junsang Yoon, Akshat Gupta, 和 Gopala Anumanchipalli. 2024. 更大的编辑批次总是更好吗？ ——关于Llama-3模型编辑的经验研究。预印本，arXiv:2405.00664。
Mengqi Zhang, Bowen Fang, Qiang Liu, Pengjie Ren, Shu Wu, Zhumin Chen, 和 Liang Wang. 2024a. 通过知识擦除增强大型语言模型的多跳推理。预印本，arXiv:2408.12456。
Ningyu Zhang, Yunzhi Yao, Bozhong Tian, Peng Wang, Shumin Deng, Mengru Wang, Zekun Xi, Shengyu Mao, Jintian Zhang, Yuansheng Ni, Siyuan Cheng, Ziwen Xu, Xin Xu, Jia-Chen Gu, Yong Jiang, Pengjun Xie, Fei Huang, Lei Liang, Zhiqiang Zhang, Xiaowei Zhu, Jun Zhou, 和 Huajun Chen. 2024b. 大型语言模型知识编辑的全面研究。预印本，arXiv:2401.01286。
Zihan Zhang, Meng Fang, Ling Chen, Mohammad-Reza Namazi-Rad, 和 Jun Wang. 2023. 大型语言模型如何捕捉不断变化的世界知识？近期进展综述。在《2023年经验方法自然语言处理会议论文集》中，第8289-8311页，新加坡。计算语言学协会。
Wayne Xin Zhao, Kun Zhou, Junyi Li, Tianyi Tang, Xiaolei Wang, Yupeng Hou, Yingqian Min, Beichen Zhang, Junjie Zhang, Zican Dong, Yifan Du, Chen Yang, Yushuo Chen, Zhipeng Chen, Jinhao Jiang, Ruiyang Ren, Yifan Li, Xinyu Tang, Zikang Liu, Peiyu Liu, Jian-Yun Nie, 和 Ji-Rong Wen. 2024. 大型语言模型综述。预印本，arXiv:2303.18223。
Ce Zheng, Lei Li, Qingxiu Dong, Yuxuan Fan, Zhiyong Wu, Jingjing Xu, 和 Baobao Chang. 2023a. 我们能否通过上下文学习编辑事实知识？预印本，arXiv:2305.12740。
Ce Zheng, Lei Li, Qingxiu Dong, Yuxuan Fan, Zhiyong Wu, Jingjing Xu, 和 Baobao Chang. 2023b. 我们能否通过上下文学习编辑事实知识？在《2023年经验方法自然语言处理会议论文集》中，第4862-4876页，新加坡。计算语言学协会。
Zexuan Zhong, Zhengxuan Wu, Christopher Manning, Christopher Potts, 和 Danqi Chen. 2023. MQuAKE：通过多跳问题评估语言模型中的知识编辑。在《2023年经验方法自然语言处理会议论文集》中，第15686-15702页，新加坡。计算语言学协会。

A CHED 构建细节

A.1 数据统计

表8展示了收集到的跳跃词频率分布的各种统计信息，表明该分布高度偏斜。我们跳跃词集合的偏度达到了39。这意味着高度右偏分布，因为偏度值大于1通常表明这种行为（Groeneveld和Meeden，1984）。

A.2 偏度计算

我们使用矩来描述跳跃词频率分布的形状来计算偏度。数据集的第k个中心矩是数据集偏离均值的程度，提升到k次幂。对于偏度，我们特别使用第三中心矩和第二中心矩（方差）。

在这种情况下，数据点代表数据集中每个词的频率。数据集中唯一词的数量记为N。

样本的偏度计算公式为：

$g_{1}=\frac{m_{3}}{m_{2}^{3 / 2}}$

其中：

$m_{3}$ 是第三个中心矩，计算公式为：
$m_{3}=\frac{1}{N} \sum_{n=1}^{N}\left(x_{n}-\bar{x}\right)^{3}$
$m_{2}$ 是第二个中心矩，即方差，计算公式为：
$m_{2}=\frac{1}{N} \sum_{n=1}^{N}\left(x_{n}-\bar{x}\right)^{2}$

在这些公式中， $x_{n}$ 表示数据集中第n个词的频率， $xˉ\bar{x}$ 是词的平均频率， $N$ 是数据集中唯一词的数量。值 $k$ 指的是矩的阶数，其中 $k = 2$ 对应方差， $k = 3$ 对应偏度。
| 基本词统计 | | | | |
| 总词数 | 独立词数 | 最大频率 | 最小频率 | 平均频率 |
| $4, 346, 604$ | 117,894 | 32,086 | 1 | 36.87 |

| 频率分布 | | |
------| |
| Q1 (25%) | 中位数 (Q2) | Q3 (75%) | 标准差 | 偏度 |
| 1.0 | 1.0 | 4.0 | 289.34 | 39.29 |

表8：词汇集统计。

A. 3 词频

在收集的跳跃词中，我们观察到最常见的术语主要来源于Wikidata中的形式变化。例如，频率最高的五个跳跃词及其相应频率如下：

“Brockhaus and Efron Encyclopedic Dictionary” 出现了32,263次
- “Small Brockhaus and Efron Encyclopedic Dictionary” 出现了30,371次
- “United States of America” 出现了22,407次
- “Jewish Encyclopedia of Brockhaus and Efron” 出现了16,649次
- “Granat Encyclopedic Dictionary” 出现了11,953次
  排除与Wikidata变化相关的术语后，频率最高的五个词为：
“United States of America” 出现了22,407次
- “United Kingdom” 出现了11,150次
- “English” 出现了10,664次
- “human” 出现了10,096次
- “Italy” 出现了9,979次
  这些词通常与实体的出生地或母语相关，因此它们并未提供关于实体的实质性上下文信息。

A. 4 频率测试

我们评估了将高频和低频跳跃词作为编辑句子前的上下文句子放置如何影响知识编辑性能。在这个实验中，我们使用了来自CounterFact数据集的1,000个实例，并在Llama-3-8B-Instruct上应用了MEMIT。我们选择了频率最高和最低的五个跳跃词，并使用GPT-4o mini构建了包含这些词的句子。评估测量了当这些句子放置在编辑提示 $(s, r)$ 之前时，模型回忆新知识的能力下降了多少。

表1显示，当使用低频跳跃词作为前缀上下文时，性能显著下降——特别是在包含 $o_{hop}$ 的句子放在编辑提示前时，编辑成功率从高频率词使用的 $88.0%88.0\%$ 下降到 $72.7%72.7\%$ 。这一结果支持了我们的假设，即频率较低、独特关联的跳跃词对模型回忆编辑知识的能力施加了更强的上下文影响。基于这些结果，我们选择使用频率作为主要标准来选择跳跃词，优先考虑出现次数较少的词。

A. 5 上下文词选择方法

表9展示了使用我们六种词选择方法的 $s_{hop}$ 、 $o_{hop}$ 和 $o_{hop}^{*}$ 句子的编辑成功率。我们重点关注每种选择方法通过上下文跳跃词构建的前缀上下文是否有效降低了编辑成功率（在编辑后使用 $o_{hop}$ ）。这种分析特别重要，因为构建该数据集的主要目标是分散模型的编辑结果，从而回忆原始对象。尽管Freq-Sim（69.1%）和Freq（69.2%）方法在 $o_{hop}$ 句子上产生相似结果，但 $o_{hop}^{*}$ 结果表明，Freq-Sim方法不仅通过 $o$ 跳跃句子分散注意力，还通过 $o^{*}$ 跳跃句子分散注意力，防止编辑成功率显著下降（Freq-Sim为 $78.1%78.1\%$ ，而Freq为 $76.9%76.9\%$ ）。因此，我们采用了Freq-Sim方法。

A. 6 前缀上下文生成方法

为了构建每个编辑提示前的简洁且上下文丰富的句子，我们使用了GPT-4o
你被要求根据提供的词列表创建一组句子以建立自然的上下文。
一般指示：

流畅性和连贯性：- 每个句子必须平滑地引出并设置句子: ‘[edit_prompt]’。- 生成的句子应感觉像是给定句子的自然前奏。
1. 词使用：- 使用词列表中的每个词正好一次，按照列表中提供的顺序。- 不要改变词列表中的顺序。- 不要在句子间重复任何词 - 完全排除以下词：‘{exclude_words}’。
1. 句子结构：- 每个句子必须简练（不超过20个词）。- 避免过于泛化的陈述或陈词滥调（如“因其独特的文化和历史而闻名”或“具有历史意义”）。
1. 输出：- 生成正好{len(one_hop)}个句子。- 每个句子必须对应词列表中的一个词，按其在列表中出现的顺序。- 只返回生成的句子，不包括目标句子：‘{edit_prompt}’。
词列表：‘{one_hop}’
图7：使用一跳词生成前缀上下文的提示模板。
mini，并遵循以下三个关键约束，系统地生成这些前缀上下文，为其提供了一组指令。

1. 流畅性和连贯性

每个句子都必须流畅地引导并设置句子：‘编辑提示’。

2. 词使用

句子必须包含跳跃词，同时排除 $s, o$ 和 $o^{*}$ 。

3. 句子结构

每个句子不得超过20个单词，避免过于泛化的陈述或陈词滥调。

我们对最初生成的跳跃句数据集进行了验证过程，以确保符合词使用约束。具体来说，我们验证了每个跳跃句是否包含其对应的单跳词，同时确保它不包含 $s, o$ 或 $o^{*}$ 。然而，如果单跳词本身包含了 $s, o$ 或 $o^{*}$ ，那么它在生成的句子中的出现不可避免，因此被视为有效。例如，如果 $∗o_{\text {hop }}^{*}$ 是"WikiProject Football"而 $o$ 是"football"，则允许生成的句子中出现"football"。

图7展示了我们用来生成带有跳跃词的句子的提示示例。此外，CHED数据集样本见图12和图13（我们的贡献从"sbj_hop_word"到"obj_new_hop_sentence"）。

A. 7 上下文连贯性评估

为了定量评估上下文连贯性，我们使用G-Eval与GPT-4o-mini进行了额外的评估（确切的指令提示见图8）。由于大多数知识事实都是不完整的句子（例如，“Tim Cook，为Apple工作”），使得连贯性判断困难，我们首先使用GPT-4o-mini生成这些事实的延续，形成完整句子后再测量连贯性。

连贯性评分范围从1（连贯性差）到5（连贯性极佳），以下是1-5评分的结果：

$s$ 前缀上下文：4.57
- $o$ 前缀上下文：3.85
- $o *$ 前缀上下文：2.75
- $\mathrm{s}_{\text {hop }}$ 前缀上下文：3.37
- $\mathrm{o}_{\text {hop }}$ 前缀上下文：3.33
- $\mathrm{o}^{*}{ }_{\text {hop }}$ 前缀上下文：2.80
  对于编辑后的对象上下文——无论是直接对象-新的 $(o∗)\left(o^{*}\right)$ 在2.75还是基于跳跃词的对象-新的 $)\left(\mathrm{o}^{*}{ }_{\text {hop }}\right)$ 在2.80——较低的连贯性得分是可以预期的，因为它们依赖于与原始知识无自然关联的术语。相比之下，原始知识上下文（ $s$ 在4.57， $o$ 在3.85）及其跳跃词变体（ $\mathrm{s}_{\text {hop }}$ 在3.37， $\mathrm{o}_{\text {hop }}$ 在3.33）均达到中等以上的连贯性。 $\mathrm{s}_{\text {hop }}$ 和 $\mathrm{o}_{\text {hop }}$ 未能达到更高的水平，这是因为我们使用低频跳跃词最大化分散性：不频繁且高度具体的术语本质上更难构建完全自然的句子。然而，为了严格评估上下文鲁棒性，我们优先考虑分散性，并认为这些连贯性水平是可以接受的。

A. 8 数据集摘要

在从Wikidata收集跳跃词的过程中，我们发现一些实体没有足够的完整5跳词来形成每个前缀上下文。在CHED中，97%的实例与 $o_{\text {hop }}$ 和 $∗o_{\text {hop }}^{*}$ 有关联的5个前缀上下文，而只有77%的实例与 $s_{\text {hop }}$ 有关联的完整5个前缀上下文。相对较低的主体跳跃句子数量可以归因于事实知识表示的本质——特定词（如"Danielle Darrieux"）通常作为主体出现，而更通用的词（如"English"）则作为对象出现——导致各类别之间的句子数量不同。因此，对于使用跳跃词的前缀上下文，我们基于21,782个事实三元组构建了一个包含314,385个句子的数据集。数据集大小的详细信息见表10。

B 方法初步概念

B. 1 全面推导 $k (x)$

我们计算 $k (x)$ 如下：

$\begin{gathered} k(x)=\sigma\left(W_{f c} a(x)+b_{f c}\right) \\ a(x)=\gamma\left(\operatorname{Att}\left(h^{l-1}(x)\right)+h^{l-1}(x)\right) \end{gathered}$

其中 $σ(⋅)\sigma(\cdot)$ 表示非线性激活， $W_{f c}, b_{f c}$ 是MLP层的参数。这里， $h^{l-1}(x)$ 是第 $l - 1$ 层的隐藏状态， $Att⁡(hl−1(x))\operatorname{Att}\left(h^{l-1}(x)\right)$ 是对该隐藏状态应用注意力机制的输出。然后我们将注意力输出与隐藏状态自身相加并通过 $γ(⋅)\gamma(\cdot)$ 进行归一化。此过程提取主体 $s$ 最后一个标记的最终MLP激活。

B. 2 全面KL散度项

在这里，我们扩展了公式(2)中的KL散度惩罚 $DKL(v)D_{\mathrm{KL}}(\mathbf{v})$ ：

$\begin{aligned} \mathbf{v}^{*}= & \underset{\mathbf{v}}{\operatorname{argmin}} \frac{1}{N} \sum_{j=1}^{N}\left[-\log \mathbb{P}_{G\left(h^{l}=\mathbf{v}\right)}\left[o^{*} \mid x_{j}+p\right]\right] \\ & +D_{\mathrm{KL}}\left(\mathbb{P}_{G\left(h^{l}=\mathbf{v}\right)}\left[x \mid p^{\prime}\right] \| \mathbb{P}_{G\left(h^{l}\right)}\left[x \mid p^{\prime}\right]\right) \end{aligned}$

其中 $PG(hl=v)[x∣p′]\mathbb{P}_{G\left(h^{l}=\mathbf{v}\right)}\left[x \mid p^{\prime}\right]$ 是在修改后的隐藏状态 $v\mathbf{v}$ 下的生成分布，而 $PG(hl)[x∣p′]\mathbb{P}_{G\left(h^{l}\right)}\left[x \mid p^{\prime}\right]$ 是更新前的原始分布。第二项最小化了在更新前后探针提示 $p′p^{\prime}$ （“[subject] is a”）的输出分布之间的KL散度，从而防止对相关知识的无意更改。

C 前缀上下文分析

C. 1 不同前缀上下文策略的价值向量方差分析

图9展示了图5左侧面板的扩展版本，其中前缀提示的数量以更精细的细节绘制。在此实验中，我们评估了不同的前缀上下文策略是否通过使用来自CounterFact数据集的1,000个编辑三元组使价值向量更加多样化。价值向量 $v\mathbf{v}$ 从Llama-3-8B-Instruct的第三个MLP层提取。具体来说，每种策略构造如下：对于 $s$ 、 $o$ 和 $o^{*}$ 策略，句子仅使用相应的词生成。例如，在 $s$ 策略中，所有句子仅用 $s$ 生成（如生成6个句子使用 $s$ ）。相反， $s, o$ 策略形成两个句子集——一个句子使用 $s$ ，另一个使用 $o$ ——而 $s, o, o^{*}$ 策略形成三个句子集，每个句子分别使用 $s$ 、 $o$ 和 $o^{*}$ 生成。相比之下，MEMIT的常用词策略通过从预设集合（如"The"、“Therefore”、“Because”、“I”、“You”）中选择词生成句子。

在组合策略中， $s, o$ 策略的总前缀上下文数量增加2，而 $s, o, o^{*}$ 策略从 $s$ 策略的6个前缀上下文开始增加3。值得注意的是，即使使用多达18个前缀上下文，整体方差也没有显著增加。由于增加句子数量对方差没有显著影响，CoRE方法使用15个句子（即在 $s, o$ 和 $o^{*}$ 策略中每个词使用5个句子）。
"您将获得两个句子：句子1和句子2。您的任务是评估句子2作为句子1的延续的连贯性。使用以下评分系统评估句子2在逻辑和语义上的连贯性：
评估标准：
连贯性 (1-5)
1 (不连贯) - 句子2完全断开或毫无意义。
2 (勉强连贯) - 句子2显示出最小的联系，有重大转变。
3 (适度连贯) - 句子2继续发展但存在轻微不一致。
4 (很大程度上连贯) - 平滑的延续，仅有轻微转变。
5 (高度连贯) - 完美的逻辑和语义流动。
评估步骤：

仔细阅读句子1和句子2。
1. 判断句子2是否从句子1发展而来并保持主题一致。
1. 根据上述连贯性标准分配1-5的分数。"
  图8：G-Eval的指令提示

图9：不同前缀提示策略的价值向量平均方差

C. 2 跨前缀上下文的价值向量L2距离分析

图10展示了图5右侧面板的扩展版本。请注意，底层实验值保持不变；此处的区别在于呈现方式。在图5中，我们专注于绘制成对L2距离差异（编辑后与编辑前），而图10则展示了编辑前模型、未经正则化的编辑后模型以及应用我们正则化项后的编辑后模型的确切平均成对L2距离值。

进一步实验详情如下，所使用的前缀上下文来自CHED数据集，每个编辑三元组有15个不同的前缀上下文。对于每个带有前置前缀的输入，

图10：编辑前模型（绿色）、编辑后未正则化（红色）和编辑后带正则化（蓝色）的按层平均成对L2距离。
我们提取了与主体最后一个标记相对应的隐藏状态（即价值向量）。模型编辑使用MEMIT进行了1,000次编辑。如图所示，红条代表未经正则化的编辑后模型，而蓝条代表应用正则化项后的编辑后模型。值得注意的是，红条显示，与编辑前模型（由绿条表示）相比，后期层的L2距离差距往往增大。相反，添加我们的正则化项（蓝条）有效地缩小了这一差距。

D 详细评估指标

在本附录中，我们提供了在§5.1中简要总结的评估指标的更多细节和实验设置。

case_id: 162	提示: Guillaume Durand，担任的职位是
	生成文本: 教皇，是一位在天主教会中拥有极大权威和影响力的男性。他是罗马的主教和全球天主教会的精神领袖。因此，他有权做出重要决定，并指导教会的教义
case_id: 311	提示: Jalil Lespert的母语是
	生成文本: 荷兰语。他精通英语，并对法语和德语有良好的理解。Jalil Lespert在安特卫普大学（UHasselt）学习工业工程，并于1993年获得博士学位。之后他的
case_id: 367	提示: 在哥伦比亚，他们理解
	生成文本: 英语，但仍然建议学习一些基本的西班牙语短语。官方语言是西班牙语，尤其是在城市中广泛使用。在秘鲁，你会发现许多人讲西班牙语，但你也可能遇到
case_id: 958	提示: Greta Van Susteren为
	生成文本: BBC工作，成为英国公民 Greta Van Suster，前BBC主播和CNN主持人，已经成为英国公民。自2015年以来，她一直在BBC工作，并自那时起成为英国居民。Suster，
case_id: 13839	提示: Melilla是属于的大洲的一部分
	生成文本: 欧洲，位于非洲最北端。它是位于地中海海岸的西班牙自治城市，是非洲最北端的城市。Melilla的人口约为80,000人，以其闻名

表11：说明N-gram重复评分评估方法的示例案例。

D.1 效力

正如我们提到的，我们提出了一种严格的基于生成的评估方法：只有当模型的输出（最多50个标记）包含 $o^{*}$ 并完全排除 $o$ 时，才认为编辑成功。这种方法防止了模型最初生成 $o^{*}$ 但随后恢复到 $o$ 的情况，详见表11。

在这种评估方法下，我们在四种不同条件下使用精确的编辑提示（例如“Tim Cook为”）评估编辑后的知识。基线条件，No ctx，仅使用编辑提示而不附加任何其他上下文。其他三种条件——s_{hop}、o_{hop}和o_{hop}^{*}——在我们的CHED数据集中添加了不同的前缀上下文。

D.2 泛化性

泛化性扩展了效力指标，通过评估当编辑提示被改写时模型是否生成 $o^{*}$ 来衡量。例如，考虑改写提示“Tim Cook受雇于”作为原始编辑提示的变体。

D.3 特异性

特异性衡量未计划更改的知识在编辑后是否保持不变，这通过询问与编辑提示共享相同关系和对象的另一个主体来验证。例如，如果编辑提示涉及与特定对象的“受雇于”关系，我们可以询问“Kevan Parekh受雇于”。

D.4 综合能力

为了验证编辑后模型的基本能力，我们在五个关键领域评估其表现：常识推理、事实知识检索、上下文处理能力、跨多种主题的语言模型多任务能力和代码生成。具体来说，我们使用CommonsenseQA Talmor等 (2019) 进行常识推理评估，使用TriviaQA Joshi等 (2017) 进行事实回忆评估。我们进一步在LAMBADA Paperno等 (2016) 上评估长上下文处理能力，这是一个开放式的完形填空任务，要求预测给定全文段落中被留空的词。我们使用MMLU（大规模多任务语言理解）基准 Hendrycks等 (2021) 评估多任务能力，该基准衡量语言模型在57个不同主题上的表现。最后，LiveCodeBench评估四个方面——代码生成、自我修复、测试输出预测和代码执行——但在这里我们仅使用公开发布的880个问题评估其代码生成组件。代表性数据集示例见表19、20、21和22。所有评估均使用OpenCompass *Contributors (2023)*框架进行。

D.5 流畅性

为了确保编辑不会损害流畅性，我们测量N-gram重复作为不流畅性的代理。该指标是在提供编辑提示作为输入时生成的输出上计算的。过度重复（见表12中的示例，其中大幅增加N-gram重复的案例被突出显示）表明生成质量下降，因此我们对这些输出进行惩罚。请注意，这些示例是在对1000个编辑三元组应用MEMIT时发现的。此外，N-gram重复率是重复的总和

case_id: 465	提示: Louis Bonaparte讲的语言生成文本: 荷兰语荷兰语语言荷兰语语言荷兰语语言荷兰语语言荷兰语语言荷兰语语言荷兰语语言荷兰语语言荷兰语语言荷兰语语言荷兰语语言荷兰语语言荷兰语语言荷兰语语言荷兰语语言荷兰语 N-gram重复: 183
case_id: 396	提示: Pervez Musharraf信仰的宗教是生成文本: 佛教，并且他曾担任印度驻中国大使。他曾担任印度驻中国大使。他曾担任印度驻中国大使。他曾担任印度驻中国大使。他曾担任印度驻中国大使。 N-gram重复: 130
case_id: 888	提示: 第二共和国的首都是生成文本: 巴黎。法兰西共和国的首都是巴黎。法兰西王国的首都是巴黎。法兰西王国的首都是巴黎。法兰西王国的首都是巴黎。法兰西王国的首都是巴黎 N-gram重复: 117
case_id: 570	提示: Hannah Point在生成文本: 欧洲。下一个城市是伊斯坦布尔，土耳其。下一个城市是伊斯坦布尔，土耳其。下一个城市是伊斯坦布尔，土耳其。下一个城市是伊斯坦布尔，土耳其。下一个城市是伊斯坦布尔，土耳其。 N-gram重复: 114
case_id: 329	提示: Angela Merkel曾任职于生成文本: 罗马作为意大利总理，但他不是意大利总理。他是意大利总理，但他不是意大利总理。他是意大利总理，但他不是意大利总理。他是意大利总理，但他不是总理。 N-gram重复: 113

表12：说明N-gram重复评分评估方法的示例案例。

E 分析

E.1 聊天模板

在我们的研究中，我们使用聊天模板来调查数据集的影响，每个模板在各种模型中设计不同。图11展示了一个聊天模板的例子。在模型实验期间，我们没有固定聊天模板，以确保提示自然地与模型的生成过程对齐。此外，表13展示了聊天模板的影响和我们消融研究的结果。在能够适应聊天模板的Llama3中，我们观察到原始对象句子在整个方法中的效力下降
编辑提示（原始设置）：
我买的新iPhone手机壳有一个我很喜欢的设计。Tim Cook受雇于
Llama-3-8B-Instruct: <|begin_of_text|> <start_header_idl>user<lend_header_idl> 我买的新iPhone手机壳有一个我很喜欢的设计<leot_idl>
<|start_header_idl>assistant<lend_header_idl>
Tim Cook受雇于
Mistral-7B-Instruct-v0.3: [INST] 我买的新iPhone手机壳有一个我很喜欢的设计[/INST]
Tim Cook受雇于
图11：聊天模板示例

方法	类型	s	o	$o^{*}$	s_chat	o_chat	$o^{*}$ _chat
Llama3
MEMIT	CHED	89.6	86.5	88.7	85.0	73.9	85.4
	随机跳跃词	90.8	88.2	90.2	86.2	85.2	85.4
	随机句子	94.6	92.4	93.4	89.2	87.4	89.7
JEEP	CHED	68.2	62.6	69.5	64.6	56.7	71.5
	随机跳跃词	63.0	61.3	60.5	67.0	60.2	66.0
	随机句子	66.2	64.0	65.4	66.4	65.5	63.7
PMET	CHED	70.2	66.0	77.3	64.7	54.2	75.0
	随机跳跃词	73.0	69.9	72.7	68.3	63.3	67.4
	随机句子	74.9	71.8	72.8	68.7	66.2	66.5
EMMET	CHED	94.2	93.1	94.6	94.6	91.1	96.1
	随机跳跃词	94.0	92.1	94.1	92.7	92.8	94.6
	随机句子	93.9	93.1	93.2	92.5	93.3	94.2
CoRE	CHED	95.1	93.8	96.6	91.2	84.9	94.6
	随机跳跃词	94.9	94.5	96.7	92.6	90.1	91.9
	随机句子	96.7	95.4	96.5	93.4	92.2	93.5

表13：带有聊天模板和跳跃词消融的效力
在所有方法中，原始对象句子的效力下降。这表明LLMs通常受到模板的影响。特别是，当使用 $o_{hop}$ 前缀上下文时，效果显著下降：MEMIT的成功率从 $86.5%86.5\%$ 下降到 $73.9%73.9\%$ ，而CoRE的成功率从 $93.8%93.8\%$ 下降到 $84.9%84.9\%$ 。相反，使用 $o_{hop}^{*}$ 前缀上下文时，成功率下降幅度较小。

E. 2 跳跃词分析

我们对跳跃词的消融研究表明，它们对效力有显著影响。具体来说，用跳跃词替换词会导致成功率比用随机词更大的下降。此外，跳跃词的效果与用随机句子替换整个句子相当，这表明CHED数据集的主要影响源于跳跃词本身。

正如我们所料，我们CHED数据集的主要贡献来自于上下文跳跃-

方法	类型	s	o	o*	s_chat	o_chat	o*_chat
Llama3
MEMIT	CHED	76.3	70.6	72.0	71.4	63.9	68.4
	随机跳跃词	73.1	70.0	71.5	70.8	67.1	68.2
	随机句子	80.0	78.0	80.7	73.0	71.8	72.9
JEEP	CHED	55.3	50.0	54.7	54.6	48.6	56.8
	随机跳跃词	48.5	44.9	46.2	53.0	48.3	51.0
	随机句子	53.7	51.5	51.7	53.3	52.2	51.6
PMET	CHED	64.6	58.7	66.4	56.2	49.1	58.5
	随机跳跃词	73.0	69.9	72.7	68.3	63.3	67.4
	随机句子	74.9	71.8	72.8	68.7	66.2	66.5
EMMET	CHED	82.2	79.6	80.7	86.6	83.9	85.8
	随机跳跃词	80.0	77.5	79.1	84.7	82.2	83.9
	随机句子	80.9	79.5	79.8	84.7	84.2	84.8
CoRE	CHED	92.0	89.7	90.5	86.8	81.7	84.2
	随机跳跃词	90.8	88.7	90.1	85.4	82.4	83.0
	随机句子	93.1	92.1	92.3	86.8	85.3	86.3

表14：各种方法的平均概率
跳跃词。如果我们查看表13的 $KaTeX parse error: Expected 'EOF', got '_' at position 14: o_{\text {hop_̲chat }}$ 列，我们会观察到 $o_{\text {hop }}$ 和 $KaTeX parse error: Expected 'EOF', got '_' at position 14: o_{\text {hop_̲chat }}$ 上下文之间最显著的差异，特别是在使用聊天模板时。在CHED数据集中，MEMIT方法在使用随机跳跃词时成功率从 $\%$ 增加到 $\%$ ，接近在完全随机上下文中观察到的 $\%$ 。同样，CoRE方法也表现出相同的模式，从 $\%$ 增加到使用随机跳跃词的 $\%$ ，这与完全随机上下文中达到的 $\%$ 相当。这些结果表明跳跃词是分散模型注意力的关键元素，导致模型在应用知识编辑后仍回忆起原始对象。

E. 3 概率测试

在某些研究中，知识编辑的结果还通过检查原始和新对象标记的概率差异来评估，从而捕捉语言模型简单生成之外的两个对象的内在差异。据此，我们进行了几项实验，不仅评估了效力，还评估了Llama3的新对象标记的概率。特别是，我们的方法CoRE几乎优于其他方法，除了EMMET，其实验中的泛化得分较低。结果见表14。

E. 4 ACS

最近的研究表明，信息流，特别是从主题标记到句子末尾标记的注意力，在LLM的生成性能中起着至关重要的作用（Geva等，2023）。基于此，我们进一步研究了跳跃词对知识编辑性能的影响，通过测量平均贡献分数（ACS）。

方法	s	s_chat	o	o_chat	o*	o*_chat	random	random_chat
Llama3
无编辑	0.549	0.624	0.618	0.689	0.671	0.715	0.406	0.537
JEEP	0.662	0.692	0.727	0.776	0.738	0.775	0.563	0.650
PMET	0.602	0.654	0.698	0.745	0.736	0.764	0.488	0.602
MEMIT	0.549	0.647	0.591	0.697	0.685	0.751	0.447	0.608
EMMET	0.544	0.553	0.543	0.580	0.587	0.638	0.389	0.474
CoRE	0.552	0.608	0.578	0.659	0.688	0.745	0.466	0.580
gpt-j
无编辑	0.514	-	0.616	-	0.684	-	0.491	-
JEEP	0.438	-	0.498	-	0.584	-	0.345	-
PMET	0.474	-	0.529	-	0.617	-	0.379
0.460	-	0.662	-	0.422	-
EMMET	0.439	-	0.525	-	0.637	-	0.383	-
CoRE	0.430	-	0.529	-	0.635	-	0.394	-

表15：各种模型和方法的ACS

表15展示了Llama3和GPT-J使用各种编辑方法的总ACS。在我们的CHED数据集中，平均句子长度为14.39个标记，而跳跃词的平均长度为3.04个标记。这意味着当模型随机关注每个标记时，随机标记的ACS约为0.21。如第§5.6节所述，我们的模型在无模板和聊天模板设置中实现了原始对象ACS的降低和新对象ACS的提升。相比之下，其他方法通常表现出两者都降低或两者都增加的情况。

值得注意的是，CoRE方法在简单前缀和用户话语上下文中唯一地表现出这种趋势，而其他方法实现的ACS值要么过高，意味着它们对过时的 $o_{\text {hop }}$ 信息过度关注，要么过低，表明它们在知识编辑后忽略了 $∗o_{\text {hop }}^{*}$ 信息。

我们还观察到，当以用户话语形式添加前缀上下文时，所有ACS值更高。这表明模型更加关注来自用户的跳跃词，表明大型语言模型从用户提供的文本中提取了更多信息。此外，我们可以观察到，模型在编辑后实现了 $∗o_{\text {hop }}^{*}$ 的ACS增加和 $o_{\text {hop }}$ 的ACS降低，这进一步验证了我们的预期。

我们推测这一结果是由于我们的CoRE方法使用多个上下文句子来指导模型关注用于新编辑知识的上下文中的哪个标记。

对于GPT-J，我们没有观察到编辑后模型行为的显著差异，因为ACS
在所有方法中下降。我们推测这种现象发生是因为GPT-J不如Llama3强大，使其对模型编辑不够鲁棒。结果，它在编辑后失去了内部通用性。

从这一点来看，我们可以得出结论，注意力得分可以用来诊断模型在应用编辑方法后的差异——不仅在概率或生成效力方面，而且在理解模型的内部机制方面。

F 实现细节

所有实验都在NVIDIA A100 GPU上进行。模型推理使用vLLM (Kwon等，2023) 进行，而概率实验则使用HuggingFace进行。

F. 1 变更Transformer记忆的大量编辑方法（MEMIT）

在Llama3和Mistral上，MEMIT超参数遵循EasyEdit开源代码中用于Llama2-7b的超参数设置（Wang等，2024），因为它们具有相似的架构、大小和层数。优化更新在25步内执行，权重衰减为 $\times 10^{-3}$ ，KL因子为0.0625 ，学习率为 $\times 10^{-1}$ 。训练在fp32中进行，而评估在fp16中进行。

按照上述相同的EasyEdit开源代码，对于GPT-J-6B，EasyEdit超参数配置为在25步内执行优化更新，权重衰减为0.5 ，KL因子为0.0625 ，学习率为 $\times 10^{-1}$ 。

我们进一步研究了编辑层的选择。虽然早期工作（Meng等，2022b）使用因果追踪来确定最佳层，但后来的研究表明，由因果追踪确定的层并不总是导致最佳的编辑性能（Hase等，2023）。受这些发现的启发，我们重新审视了层选择过程，重点关注早期至中期层。基于先前的工作（Gupta等，2024b；Yoon等，2024），我们尝试了包含1、2、3或4层的子集。对于每个子集，我们根据三个归一化指标——效力（无上下文）、综合能力和N-gram重复——评估性能并计算平均分数。这一评估使我们选择了以下层进行编辑：MEMIT: [3]，Mistral-7b: [4, 5]，GPT-J: $[2, 3, 4]$ 。

F. 2 上下文鲁棒编辑（CoRE）

为了公平起见，我们使用与MEMIT相同的超参数（见§F.1）。我们的方法在此基础上通过引入额外的正则化项来构建。在这个项中，层范围和缩放因子——分别在公式4中表示为 $L\mathcal{L}$ 和 $λ\lambda$ ——通过与MEMIT层选择相同的参数搜索方法确定。

在我们的实验中，我们探索了三种层范围配置：编辑层之后的10层、编辑层之后的20层以及直到模型末尾的所有层。具体来说，对于Llama3，所选配置为编辑层（层3）之后的28层，缩放因子为0.04 。对于Mistral，层范围包括最后一个编辑层（层5）之后的26层，缩放因子为0.1。对于GPT-J，层范围包括最后一个编辑层（层4）之后的26层，缩放因子为0.0002 。缩放因子最初从1开始探索，每次递减0.1。对于GPT-J，由于在最初探索的范围内未找到合适的参数，我们进一步从0.1开始以0.01递减进行搜索，并从0.01开始以0.0001递减进行搜索。我们观察到一致的趋势：随着缩放因子的增加，在无上下文设置下的编辑成功率趋于下降，而综合能力和N-gram重复等指标得到改善。

F. 3 Transformer的等式约束大规模模型编辑算法（EMMET）

在Llama3和Mistral上，EMMET超参数遵循用于Llama2-7b的EMMET开源代码中的超参数设置（Gupta等，2024b），因为它们具有类似的架构、大小和层数。更新在第5层执行，优化过程进行25步，权重衰减为 $\times 10^{-3}$ ，KL因子为0.0625 ，学习率为 $\times 10^{-1}$ 。EMMET应用了一个emmet lambda值为0.1 。训练在fp32中进行，而评估在fp16中进行。

按照相同的EMMET开源代码，对于EMMET超参数配置为在第5层执行更新。优化过程进行25步，权重衰减为0.5 ，KL因子为0.0625 ，学习率为 $\times 10^{-1}$ 。此外，应用了一个emmet lambda值为0.1 。

基础模型	方法	效力							综合能力	特异性	综合能力
		无上下文	s	o	o*	$s_{\text {loop }}$	$o_{\text {loop }}$	$∗o_{\text {loop }}^{*}$			C-QA	T-QA	N-gram
GPT-J	基础	0.9	1.6	0.54	38.06	1.2	1.0	10.6	1.1	26.1	21.5	32.7	7.6
	MEMIT	92.8	77.26	48.9	85.8	75.5	69.3	81.4	64.2	26.3	21.9	31.9	7.3
	JEEP	84.9	75.64	54.88	84.7	74.7	70.5	82.3	63.9	27.2	20.8	31.0	7.1
	PMET	90.4	79.84	59.54	88.82	81.2	76.6	86.9	70.4	26.8	20.0	31.9	7.3
	EMMET	95.3	81.4	61.14	91.1	83.6	79.2	89.1	73.5	21.8	19.9	29.7	7.2
	FT-M	32.9	28.6	26.44	24.28	26.4	24.2	23.3	17.0	12.3	19.2	5.9	60.5
	CoRE-p	94.3	79.32	54.31	88.49	81.6	76.0	85.1	66.3	24.7	22.0	32.0	7.2
	CoRE-p+r	93.8	80.68	58.96	89.54	81.5	76.7	85.2	68.7	24.8	21.9	32.0	7.1

表16：GPT-J上的结果

模型	方法	效力无上下文	泛化	特异性	平均	流畅性 N-gram
Llama3	基础	2.7	3.3	30.3	-	15.4
	MEMIT	48.7	44.6	28.6	40.6	26.6
	JEEP	29.9	19.5	23.8	24.4	27.2
	PMET	43.5	29.2	29.4	34.0	24.7
	FT-M	49.5	45.1	1.0	31.9	78.8
	CoRE	50.0	46.0	30.2	42.1	26.6
Mistral	基础	1.4	2.0	23.0	-	4.8
	MEMIT	40.2	35.4	20.8	32.2	5.4
	JEEP	20.8	14.4	20.6	18.6	6.7
	PMET	41.2	28.9	23.3	31.1	5.8
	FT-M	48.9	38.2	10.4	32.5	16.6
	CoRE	40.5	35.4	19.9	32.0	5.4
GPT-J	基础	1.2	0.7	2.9	-	7.6
	MEMIT	55.0	37.4	3.5	32.0	8.8
	JEEP	66.8	36.5	3.4	35.6	8.3
	PMET	60.8	37.8	2.8	33.8	9.6
	EMMET	59.6	31.2	2.3	31.0	8.9
	FT-M	15.6	11.2	1.8	9.5	41.6
	CoRE	53.1	36.7	3.8	31.2	9.4

表17：zsRE上的结果

F.4 联合知识编辑用于信息丰富和概率提升（JEEP）

JEEP超参数遵循用于Llama2-7b的JEEP开源代码 Shi等(2024)，因为Llama3和Mistral具有相似的架构、大小和层数。更新在低层[5]和高层 $[22, 23, 24]$ 执行，优化过程进行30步，学习率为0.5 。权重衰减和KL因子针对每层范围设置不同：低层权重衰减为0.5，低层KL因子为0.0625 ，高层权重衰减为0.5，高层KL因子为0 。训练在fp32中进行，而评估在fp16中进行。

基于相同的开源代码，超参数配置为更新低层 $[3, 4, 5, 6, 7, 8]$ 和高层 $[15, 16]$ 。优化过程进行30步，权重衰减为0.5 ，低层KL因子为0.0625，高层KL因子为0，学习率为 $\times 10^{-1}$ 。

此外，在两个层范围内应用了2000的动量调整权重。

F.5 Transformer中的精确模型编辑（PMET）

类似于JEEP，PMET超参数遵循用于Llama2-7b的JEEP开源代码 Li等(2023)，因为LLama3和Mistral具有相似的架构、大小和层数。更新在层 $[5, 6, 7, 8, 9, 10]$ 执行，优化过程进行20步，权重衰减为0.5 ，KL因子为1.0 ，学习率为0.1 。PMET应用了2.0的NLL损失因子。训练在fp32中进行，而评估在fp16中进行。

对于，PMET超参数配置为更新层 $[3, 4, 5, 6, 7, 8]$ ，优化过程进行30步，权重衰减为0.5 ，低层KL因子为1.0 ，学习率为 $\times 10^{-1}$ 。PMET应用了1.0的NLL损失因子。此外，应用了6000的动量调整权重。训练在fp32中进行，而评估在fp16中进行。

F.6 FT-M

FT-M Zhang等(2024b) 改进了直接微调方法（FT-L），通过使用因果追踪在ROME中识别的同一FFN层进行训练，使用目标答案的交叉熵损失屏蔽原始文本。

FT-M超参数遵循EasyEdit开源代码 Wang等(2024) 中使用的超参数设置。训练在fp32中进行，而评估在fp16中进行。更新在层[21]执行，优化更新进行25步，学习率为 $\times 10^{-4}$ 。

F.7 因低效被排除的方法

在我们的工作中（见附录D和表18），我们采用了一种基于生成的效能度量标准：只有当模型实际输出新的对象 $(o∗)\left(o^{*}\right)$ 并且不在50个标记窗口内输出原始对象(o)时，才认为编辑成功。相比之下，MEND和IKE论文采用了基于概率的标准，只要模型赋予 $o^{*}$ 比 $o$ 更高的概率，就将编辑视为成功，无论任何字符串是否被生成。

在1000次批量编辑下，使用更严格、更现实的基于生成的评估（见表18），MEND在无前缀设置下的效能仅为 $1.8%\mathbf{1 . 8 \%}$ ，尽管在基于概率的协议下得分为 $51.5%\mathbf{5 1 . 5 \%}$ 。同样，基于提示的编辑器IKE仅达到 $0.4%\mathbf{0 . 4 \%}$ 的生成效能，尽管其基于概率的评分达到了 $68.8%\mathbf{6 8 . 8 \%}$ （表18）。由于这些接近零的生成结果表明在现实条件下几乎完全编辑失败，因此我们将它们从表4中排除。

类似地，我们在Llama3和Mistral的zsRE数据集上省略了EMMET方法。Llama3仅达到 $\%$ 的效能，尽管之前的效能计算得分为 $\%$ 。Mistral也仅达到 $\%$ 的效能，尽管之前的效能计算得分为 $\%$ 。

ID	输入提示及黄金答案
0	[人类：“学校遭受的制裁是一记沉重的打击，似乎他们忽视了学校所做的改变努力？A. 忽视 B. 强制执行 C. 权威主义 D. 吼叫 E. 避免答案：”] BOT: “A” 人类：“什么样的便利设施允许双向旅行，同时也作为什么的安全措施？A. 银行 B. 图书馆 C. 百货商店 D. 商场 E. 纽约答案：” 黄金答案: A
1	[人类：“学校遭受的制裁是一记沉重的打击，似乎他们忽视了学校所做的改变努力？A. 忽视 B. 强制执行 C. 权威主义 D. 吼叫 E. 避免答案：”] BOT: “A” 人类：“人们在工作中旨在做什么？A. 完成工作 B. 相互学习 C. 杀死动物 D. 戴帽子 E. 相互交谈答案：” 黄金答案: A
2	[人类：“学校遭受的制裁是一记沉重的打击，似乎他们忽视了学校所做的改变努力？A. 忽视 B. 强制执行 C. 权威主义 D. 吼叫 E. 避免答案：”] BOT: “A” 人类：“在哪里你可以找到许多其他印刷作品旁边的杂志？A. 医生 B. 书店 C. 市场 D. 火车站 E. 太平间答案：” 黄金答案: B

表19：带有一击设置的CommonsenseQA数据集示例

ID	输入提示及黄金答案
0	[人类：“回答问题，你的答案应尽可能简单，以’The answer is '开头。 Q: 谁是《阿尔文和花栗鼠》背后的男人？？”] BOT: “The answer is [‘David Seville’]。” 人类：“回答问题，你的答案应尽可能简单，以’The answer is '开头。 Q: 谁是《阿尔文和花栗鼠》背后的男人？？” 黄金答案: David Seville
1	[人类：“回答问题，你的答案应尽可能简单，以’The answer is '开头。 Q: 谁是《阿尔文和花栗鼠》背后的男人？？”] BOT: “The answer is [‘David Seville’]。” 人类：“回答问题，你的答案应尽可能简单，以’The answer is '开头。 Q: 杰米·李·柯蒂斯是什么星座？？” 黄金答案: Scorpio, Skorpio, Scorpio (disambiguation)
2	[人类：“回答问题，你的答案应尽可能简单，以’The answer is '开头。 Q: 谁是《阿尔文和花栗鼠》背后的男人？？”] BOT: “The answer is [‘David Seville’]。” 人类：“回答问题，你的答案应尽可能简单，以’The answer is '开头。 Q: 哪部劳埃德·韦伯音乐剧于1993年12月10日在美国首演？？” 黄金答案: Sunset Blvd, West Sunset Boulevard, Sunset Boulevard, Sunset Bulevard, Sunset Blvd.

表20：带有一击设置的TriviaQA数据集示例

ID	输入提示及黄金答案
0	请完成以下句子：我的手掌里有一块透明的石头，里面有一个小象牙雕像。守护天使。 “如果晚上外出会被车撞，你最好有一些后备支持。” 我看着他，感到震惊。就像这是某种征兆。但当我盯着Harlin看时，他的嘴角挂着自信的笑容，我不在乎黄金答案: 征兆
1	请完成以下句子：给我一分钟换衣服，我会在码头等你。”她勉强把这些话从牙齿间挤出来。 “不需要换衣服。我们不会待太久。” Shane抓住她的手臂，开始把她带到码头。 “我可以自己到那里，黄金答案: Shane
2	请完成以下句子： ‘旋转门方便双向旅行，但它也可以作为一个什么地方的安全措施？A. 银行 B. 图书馆 C. 百货商店 D. 购物中心 E. 纽约答案：’ BOT: “A” 人类：“在哪里可以找到许多其他印刷作品旁的杂志？A. 医生 B. 书店 C. 市场 D. 火车站 E. 殡仪馆答案：” 黄金答案: B

表21：LAMBADA数据集示例

ID	输入提示
0	### 问题：给你一个长度为n的二进制字符串s和一个整数numOps。允许你在s上最多执行numOps次以下操作：选择任何索引i（其中0 <= i < n）并翻转s[i]。如果s[i] == ‘1’，将s[i]改为’0’反之亦然。你需要最小化s中最长相同字符子串的长度。返回操作后的最小长度。示例1：输入: s = 000001, numOps = 1 输出: 2 解释：通过将s[2]改为’1’，s变为001001。最长的相同字符子串是 s[0…1]和s[3…4]。示例2：输入: s = 0000, numOps = 2 输出: 1 解释：通过将s[0]和s[2]改为’1’，s变为1010。示例3：输入: s = 0101, numOps = 0 输出: 1 约束条件: 1 <= n == s.length <= 1000 s仅由’0’和’1’组成。 0 <= numOps <= n ### 格式：你将使用以下启动代码编写问题的解决方案，并用分隔符括住你的代码。 python class Solution: def minLength(self, s: str, numOps: int) -> int:

输入提示

### 问题：给你一个长度为n的二进制字符串s和一个整数numOps。
允许你在s上最多执行numOps次以下操作：
选择任何索引i（其中0 <= i < n）并翻转s[i]。如果s[i] == ‘1’，将s[i]改为’0’反之亦然。
你需要最小化s中最长相同字符子串的长度。
返回操作后的最小长度。
示例1：
输入: s = 000001, numOps = 1
输出: 2
解释：
通过将s[2]改为’1’，s变为001001。最长的相同字符子串是
s[0…1]和s[3…4]。
示例2：
输入: s = 0000, numOps = 2
输出: 1
解释：
通过将s[0]和s[2]改为’1’，s变为1010。
示例3：
输入: s = 0101, numOps = 0
输出: 1
约束条件: 1 <= n == s.length <= 1000
s仅由’0’和’1’组成。
0 <= numOps <= n
### 格式：你将使用以下启动代码编写问题的解决方案，并用分隔符括住你的代码。
python
class Solution:
def minLength(self, s: str, numOps: int) -> int:

表22：LiveCodeBench数据集示例

“case_id”: “6”,
“counterfact_id”: “6”,
“prompt”: “, that was created in”,
“subject”: “Anaal Nathrakh”,
“fact_knowledge”: “Birmingham”,
“edited_knowledge”: “Philadelphia”,
“relation_id”: “P740”,
“rephrased_prompt”: “In Wardha he came in close contact with Mahatma Gandhi. Anaal Nathrakh
was founded in”,
“locality_prompt”: “City of Birmingham Symphony Orchestra, that was created in”,
“locality_ground_truth”: “Birmingham”,
“sbj_hop_word”: [ “Back on Black Records”, “black metal”, “Season of Mist”, “Candlelight Records”,
“United Kingdom” ],
“obj_old_hop_word”: [ “Yvonne Mosquito”, “River Tame”, “Changchun”, “GBBHM”, " West
Midlands" ],
“obj_new_hop_word”: [ “Darby”, “Jim Kenney”, “Riverton”, “USPHL”, “Lower Moreland Township”
],
“sbj_hop_sentence”: [ “该标签是为了支持地下艺术家而创立的，Back on Black Records。”,
“这种类型以其强烈的音效和主题为特征，black metal。”,
“该标签在其名册上大幅扩展，Season of Mist。”,
“这个标签下的艺术家获得了国际认可，Candlelight Records。”,
“那个地区的音乐场景有独特的身份，United
Kingdom。”],
“obj_old_hop_sentence”: [ “Yvonne Mosquito在全年各种纪录片中首次出现，讨论热带疾病。”,
“居民经常享受全年河岸美景，River Tame。”,
“长春因其亚洲先进的汽车工业而闻名。”,
“最近的事件突显了GBBHM计划对城市发展的意义。”,
“西米德兰兹地区有许多景点。”],
“obj_new_hop_sentence”: [ “宁静的小镇Darby以其友好的社区著称。”,
“在市长Jim Kenney领导下，城市经历了重大变化。”,
“位于河边的Riverton提供美丽的水景。”,
“USPHL为有抱负的曲棍球运动员提供展示才华的平台。”,
“Lower Moreland Township拥有多个公园和娱乐设施。”]

图12：CHED-1示例

“case_id”: “5644”,
“counterfact_id”: “5698”,
“prompt”: " from",
“subject”: “Ronan Keating”,
“fact_knowledge”: “Australia”,
“edited_knowledge”: “Bangladesh”,
“relation_id”: “P495”,
“rephrased_prompt”: “Track listing Chart References Category:2012 albums Category:Garou (singer)
albums Ronan Keating was developed in”,
“locality_prompt”: “The Slap, formulated in”,
“locality_ground_truth”: “Australia”,
“sbj_hop_word”: [ “songwriter”, “Boyzone”, “Westlife”, “voice”, “singer” ],
“obj_old_hop_word”: [ “Karuwali”, “Andajin”, “Nyamal”, “Dhungaloo”, “Avstralka” ],
“obj_new_hop_word”: [ “East Bengal”, “Dhaka Division”, “Usui”, “Oraon Sadri”, “bengalese” ],
“sbj_hop_sentence”: [ “一位才华横溢的词曲作者创作了令许多听众共鸣的歌词。”,
“Boyzone因他们情感充沛的抒情曲和令人着迷的表演而著名。”,
“Westlife凭借和谐的旋律和惊人的声乐编排俘获了人心。”,
“录音期间，她的声音让工作室里的每个人都为之倾倒。”,
“作为一名歌手，她通过强大的表演表达了深刻的情感。”],
“obj_old_hop_sentence”: [ “Karuwali因其全年举办的充满活力的节日而备受庆祝。”,
“Andajin居民经常聚集在市场分享当地新闻。”,
“尼玛尔的故事强调了土地与其人民之间的联系。”,
“Dhungaloo提供的壮丽景色吸引了每个季节的许多自然爱好者。”,
“Avstralka拥有多样化的生态系统，吸引了世界各地的生态学家。”],
“obj_new_hop_sentence”: [ “东孟加拉的历史丰富，文化多样性和演变。”,
“达卡分区以其充满活力的市场和繁忙的街道而闻名。”,
“在日本，Usui气功艺术通过能量交换促进治愈。”,
“奥隆萨德里社区持有反映其遗产的独特传统。”,
“孟加拉语以其独特的语言闻名，为该地区的文化织锦做出了贡献。”]