论文 | EVALUATING THE SUSCEPTIBILITY OF PRE-TRAINEDLANGUAGE MODELS VIA HANDCRAFTED ADVERSARIALEXAMPL-CSDN博客

1. 论文概要

这篇论文探讨了大型预训练语言模型（PLM）在面对手工制作的对抗性示例时的脆弱性。作者提出了一种特定的攻击方法，演示了在未经过微调的模型中，GPT-3 和 BERT 类模型如何无法有效抵御对抗性干扰。通过一系列实验，作者展示了传统质量度量方法和嵌入相似性评分的局限性，提出对这些模型进行额外防护的必要性。

2. 研究背景

预训练语言模型：包括 GPT-3、BERT、RoBERTa 和 ALBERT 等，广泛用于自然语言处理任务。这些模型通过预训练策略进行参数初始化，显著提高了下游任务性能。
对抗性攻击：研究表明，通过在输入数据上进行细微扰动，可以导致模型输出严重偏差，甚至危及用户数据的安全。这些攻击可以绕过 n-gram 基准测量方法等现有检测手段。

3. 主要贡献

首次揭示 GPT-3 的一个主要安全漏洞：特别是在 GPT-3 Playground 上测试并报告了这种脆弱性。
对比分析不同模型的表现：使用 GPT-3 和 BERT 类模型，评估它们对手工对抗性示例的应对能力，发现微调不足以抵御这种攻击。
提出验证和评价方法：通过量化语义相似性和手工验证的方法，明确当前度量方法的不足。

研究方法

手工制作的对抗性示例：利用特定指令注入以扰乱模型的分类输出，并观察模型输出前后语义差异。
实验设计：针对多个模型进行测试，包括 GPT-3、BERT、RoBERTa 和 ALBERT。实验在 Hugging Face 平台及 OpenAI Playground 上运行，使用预设的超参数配置。
数据分析：利用标准化距离度量（如 Levenshtein、Jaccard、余弦距离）和 BERTScore 等方法进行评价，并通过 BLEU 等基准评分分析输出质量。

主要发现

GPT-3 对对抗性攻击的敏感性：尽管 GPT-3 使用了 1750 亿参数，在面对简单对抗指令时仍会产生显著的分类错误，说明模型的上下文理解存在安全隐患。
BERT 和其变体的脆弱性：RoBERTa 和 ALBERT 对此类攻击的抵抗力较弱，尤其是在处理复杂上下文时，验证了现有 PLM 在未微调时的局限性。
评价指标的局限性：传统的语义度量方法，如 BERTScore，在检测手工对抗性示例时表现不佳，表明需要更鲁棒的度量机制。

实验数据和结果

F1 和注入准确率：实验结果显示 ALBERT 的注入准确率最高，而 BERT 的表现最差。尽管 BERTScore 通常用于评估文本生成质量，但它无法识别对抗性示例的语义偏差。
度量方法的失效：距离度量（如 Sørensen-Dice 和 Jaccard 距离）的结果表明，这些方法未能有效检测到对抗性注入所带来的输出变化。