指令微调后的模型不一定在传统Benchmark上取得更好的结果,类似MMLU和HELM。根据人类爱好对齐后的模型,需要新的评测方法。
文章提出了两个主要内容:MT-bench和Chatbot Arena
MT-bench是一系列开放式问题,用于评估聊天机器人的多回合对话和指令遵循能力——这是人类偏好的两个关键因素。MT-bench还精心构建,根据其核心能力(如推理和数学)区分聊天机器人。
此外,我们还开发了聊天机器人竞技场(Chatbot Arena),这是一个众包平台,可以让聊天机器人在真实场景中进行匿名战斗——用户可以同时与两个聊天机器人进行对话,并根据个人偏好对它们的反应进行评分。
并且发现了模型评测存在的些许问题:位置偏见,冗长偏见,自我增强偏见,和有限的推理能力
MT-Bench
现有的评估方式一般有三种
- 核心知识benchmark:有固定的回答,可以自动校验
- 指令跟随:是稍微开放性的问题
- 聊天benchmark:问题多样性,复杂、开放。
MT-bench:80条多轮对话,总共8个类别:写作、角色扮演、提取、推理、数学、编码、知识I (STEM)和知识II(人文/社会科学)。每一个类里有10条多轮对话。
Chatbot-arena
匿名对战平台,让不同的模型对一个输入进行回答,选择哪一个更好。
LLM-as-a-judge
三种评估模式:
- 成对比较:给大模型一个问题两个回答,选择哪一个更好,或者平局。
- 单回答评分: