Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena

在这里插入图片描述

指令微调后的模型不一定在传统Benchmark上取得更好的结果,类似MMLU和HELM。根据人类爱好对齐后的模型,需要新的评测方法。

文章提出了两个主要内容:MT-bench和Chatbot Arena

MT-bench是一系列开放式问题,用于评估聊天机器人的多回合对话和指令遵循能力——这是人类偏好的两个关键因素。MT-bench还精心构建,根据其核心能力(如推理和数学)区分聊天机器人。

此外,我们还开发了聊天机器人竞技场(Chatbot Arena),这是一个众包平台,可以让聊天机器人在真实场景中进行匿名战斗——用户可以同时与两个聊天机器人进行对话,并根据个人偏好对它们的反应进行评分。

并且发现了模型评测存在的些许问题:位置偏见,冗长偏见,自我增强偏见,和有限的推理能力

MT-Bench

现有的评估方式一般有三种

  1. 核心知识benchmark:有固定的回答,可以自动校验
  2. 指令跟随:是稍微开放性的问题
  3. 聊天benchmark:问题多样性,复杂、开放。

MT-bench:80条多轮对话,总共8个类别:写作、角色扮演、提取、推理、数学、编码、知识I (STEM)和知识II(人文/社会科学)。每一个类里有10条多轮对话。

Chatbot-arena

匿名对战平台,让不同的模型对一个输入进行回答,选择哪一个更好。

LLM-as-a-judge

三种评估模式:

  1. 成对比较:给大模型一个问题两个回答,选择哪一个更好,或者平局。
  2. 单回答评分:
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

volcanical

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值