Rethinking Benchmark and Contamination for Language Models with Rephrased Samples
https://arxiv.org/abs/2311.04850
重新思考带有重新表述样本的语言模型的基准测试和污染问题
摘要
大型语言模型越来越多地在人类产生的所有数据上进行训练。由于预训练或微调数据集中的潜在污染,许多人对公共基准测试的可信度提出了担忧。虽然大多数数据去污染工作应用字符串匹配(例如,n-gram重叠)来删除基准测试数据,但我们表明这些方法是不够的,简单的测试数据变化(例如,释义,翻译)可以轻易绕过这些去污染措施。此外,我们证明如果这种测试数据的变化没有消除,一个13B模型可以轻易地过度拟合一个测试基准,并实现与GPT-4相当的极高性能。我们在广泛使用的基准测试中验证了这样的观察,如MMLU,GSK8k和HumanEval。为了应对这种日益增长的风险,我们提出了一种更强大的基于LLM的去污染方法,并将其应用于流行的预训练和微调数据集,揭示了显著的以前未知