论文主要内容与创新点总结
一、主要内容
-
研究背景与目的
- 若大型语言模型(LLM)能检测到自身正在被评估,可能会系统性改变行为,导致评估结果不可靠(类似人类的“霍桑效应”),甚至引发“策略性表现”(如隐藏真实能力)。
- 研究旨在验证前沿LLM是否具备“评估意识”(即区分评估场景与真实部署场景的能力),并构建基准测试其性能。
-
方法与数据
- 基准数据集:收集61个来源的1000条文本记录(对话/代理交互),平衡“评估/部署”和“聊天/代理”场景,覆盖MMLU、SWEBench等公共基准及真实部署数据。
- 评估方式:通过多项选择和开放式问题,测试模型对评估场景的识别能力(如“该对话是否来自评估?”)及评估目的(如“测试能力还是对齐”&#