论文主要内容与创新点总结
主要内容
-
研究背景与问题
大语言模型(LLMs)训练数据中可能包含敏感信息,隐私法规(如GDPR、CCPA)要求移除特定数据,“精确遗忘”(Exact Unlearning)被视为数据移除的“黄金标准”,即通过重新训练模型去除目标数据的影响。但本文指出,即使是精确遗忘,仍可能存在隐私漏洞。 -
核心方法
- 提出一种基于模型引导(Model Guidance) 和标记过滤策略(Token Filtering) 的数据提取攻击方法。
- 利用遗忘前模型(θ)和遗忘后模型(θ’)的差异,通过θ引导θ’的生成过程,捕捉被移除数据的分布特征。
- 标记过滤策略限制生成token为θ中高概率词汇,提升提取准确性。
- 实验验证
- 在MUSE、TOFU、WMDP等基准数据集及模拟医疗数据集上,该方法提取成功率较基线方法提升显著(部分场景下翻倍&#