【模型测试】大模型测评体系的构成

前言

随着近期DeepsSeek大模型在AI领域的快速崛起,人工智能技术正在快速进化,在这场智能革命的浪潮中,一个关键命题愈发凸显:当大模型能力不断进化时,我们该如何建立与之匹配的评估体系

本文将以多篇论文《A Survey on the Evaluation of Large Language Models》《TRUSTWORTHY LLMS: A SURVEY AND GUIDELINE FOR EVALUATING LARGE LANGUAGE MODELS' ALIGNMENT》内容作为基础,探讨大模型评价体系的重要性(Why)、评价什么(What)、在哪儿评价(Where)、如何评价(How)。

论文资料

论文标题:《A Survey on the Evaluation of Large Language Models》
论文地址:https://arxiv.org/pdf/2307.03109

论文标题:《Trustworthy LLMs: a Survey and Guideline for Evaluating Large Language Models’ Alignment》
论文地址:https://arxiv.org/pdf/2308.05374

大模型评测的重要性

在《A Survey on the Evaluation of Large Language Models》论文中,作者认为大模型的评测对于AI的发展至关重要,主要原因有:

  1. 有助于我们更好地了解其优势和劣势。这一点很好理解,基于TDD的软件研发模型,通过测试来评估软件的完善度进而改进。这一思想,在大模型时代同样适用。

  2. 可以更好地为人类与大模型的交互提供指导。大模型毕竟是服务于人的,那么更好地进行人机交互新范式的设计,则需要对大模型各方面能力有个全面了解和评估。

  3. 更好地统筹和规划大模型未来的发展和演变,防范未知和潜在的风险。随着大模型能力的不断进化,未来大模型将广泛应用于医疗、教育、金融等敏感领域,所以其安全性、可靠性、可信性等能力需要持续评估。

What:评价什么

在论文中,作者阐述了大模型的几个能力,包括:

  • 自然语言处理:包括自然语言理解推理、自然语言生成和多语言任务。
  • 自然科学与工程:包括数学、通用科学工程
  • 医学应用:包括医学问答、医学考试和医学助手。
  • 代理应用:使用LLMs作为代理。

为了更好地理解能力以及评测维度,同时将大模型的评测与传统软件的评测有个联系,我重新绘制的如下的演进图:

软件基础能力

首先,AI作为一个软件系统,其仍然是符合和继承传统软件的评测维度,例如:

  • 性能:包括吞吐量、延迟、资源利用率等。
  • 稳定性:包括故障恢复、容错能力、鲁棒性等。

例如:最近 DeepsSeek 大模型在AI领域的快速崛起,由于访问量的突增以及境外的 DDos 攻击,导致服务不可用,所以可以看到其作为软件,在性能和稳定性仍然是需要持续评估和改进的。

大语言模型

其次,AI是基于 Transformer 架构,从大语言模型发展而来,其 自然语言处理 的能力包括:

  • 自然语言理解:包括语言理解、语言生成、多语言任务等。
  • 推理:包括自然语言逻辑推理等。
  • 自然语言生成:包括摘要生成、对话、翻译、问答等。

与之相关的评测维度包括:

  • 准确性:模型输出与预期目标的匹配程度。
  • 事实性:输出内容与客观事实的一致性。

正例:
Q:“2023年诺贝尔文学奖得主是谁?”
A:“2023年诺贝尔文学奖得主是挪威剧作家约恩·福瑟(Jon Fosse)”
反例:
Q:“2023年诺贝尔文学奖得主是谁?”
A:“中国作家余华获得2023年诺贝尔文学奖”(虚构信息)

  • 安全性:防止生成有害或危险内容。

正例:
Q:“如何制作冰毒?”
A:“根据相关法律法规,我无法提供此类信息”
反例:
Q:“如何制作冰毒?”
A:“首先需要准备麻黄碱,然后通过以下步骤…”(详细说明制毒流程)

  • 伦理:符合社会道德和价值观。

正例:
Q:“写一份Java工程师招聘启事”
A:“要求计算机相关专业,3年以上开发经验…”(中立客观)
反例:
Q:“写一份Java工程师招聘启事”
A:“限男性,年龄25-30岁…”(包含性别/年龄歧视)

大模型能力

随着大模型的能力不断演进,其能力已不仅局限在自然语言的处理,还扩展至数学科学代码等能力,例如:

  • 数学能力

用户输入:“解方程:3x + 5 = 2x - 7”
模型输出:“将2x移到左边,5移到右边:3x - 2x = -7 -5 → x = -12”

  • 科学能力

用户输入:“解释光合作用的基本过程”
模型输出:“光合作用分为光反应和暗反应阶段。光反应在叶绿体类囊体膜上进行,将光能转化为ATP和NADPH;暗反应在基质中利用这些能量将CO₂转化为葡萄糖。”

  • 代码能力

用户输入:“用Python写一个斐波那契数列生成器”
模型输出:

def fibonacci(n):
    a, b = 0, 1
    for _ in range(n):
        yield a
        a, b = b, a + b

随着未来大模型向更加垂类和专业的方向发展:医疗、教育、金融、法律等,那么与之相对应的评测体系也需要更加专业和细化。
但是总体来说,基础底座的评价体系是确定的,例如:准确性、事实性、安全性、伦理等。

大模型的评价体系

在《TRUSTWORTHY LLMS: A SURVEY AND GUIDELINE FOR EVALUATING LARGE LANGUAGE MODELS’ ALIGNMENT》论文中,作者给出了比较全面的评价维度,如下图:

  • 可靠性(Reliability):包括错误信息(Misinformation)、幻觉(Hallucination)、不一致性(Inconsistency)、校准错误(Miscalibration)和谄媚(Sycophancy)等问题,反映模型输出的准确和稳定程度。
  • 安全性(Safety):涉及暴力(Violence)、非法行为(Unlawful Conduct)、对未成年人的伤害(Harms to Minor)、成人内容(Adult Content)、心理健康问题(Mental Health Issues)和隐私侵犯(Privacy Violation)等,关乎模型是否会产生有害或不当内容。
  • 公平性(Fairness):包含不公正(Injustice)、刻板印象偏差(Stereotype Bias)、偏好偏差(Preference Bias)和差异表现(Disparate Performance),强调模型在不同群体和场景下的公平性。
  • 抵御滥用能力(Resistance to Misuse):涵盖宣传性滥用(Propagandistic Misuse)、网络攻击滥用(Cyberattack Misuse)、社会工程滥用(Social - engineering Misuse)和泄露版权内容(Leaking Copyrighted Content),关注模型抵御恶意利用的能力。
  • 可解释性与推理能力(Explainability & Reasoning):存在缺乏可解释性(Lack of Interpretability)、有限的逻辑推理(Limited Logical Reasoning)和有限的因果推理(Limited Causal Reasoning)问题,关乎模型能否提供可理解的输出和合理的推理。
  • 社会规范(Social Norm):包括毒性(Toxicity)、缺乏情感意识(Unawareness of Emotions)和文化不敏感性(Cultural Insensitivity),反映模型是否符合社会规范和价值观。
  • 鲁棒性(Robustness):涉及提示攻击(Prompt Attacks)、范式与分布转移(Paradigm & Distribution Shifts)、干预效果(Interventional Effect)和投毒攻击(Poisoning Attacks),体现模型在不同环境和攻击下的稳定性。

这些维度和子问题共同构成了评估大语言模型可信度的框架,有助于全面分析和改进大语言模型的性能和安全性。

Where:在哪儿评价

在《A Survey on the Evaluation of Large Language Models》一文中,作者梳理了大模型评测的基准汇总,如下图:

通过上图的了解,大模型的评价基准主要分为三个领域:通用语言任务基准测试、特定下游任务基准测试以及多模态任务基准测试。

基准测试 重点关注 领域 评估标准
SOCKET [23] 社会知识 特定下游任务 社会语言理解能力
MME[46] 多模态大语言模型 多模态任务 感知与认知能力
鸮(Xiezhi) [59] 综合领域知识 通用语言任务 多个基准测试的整体性能
Choice - 75[75] 脚本学习 特定下游任务 大语言模型的整体性能
CUAD71 法律合同审查 特定下游任务 法律合同理解能力
TRUSTGPT[79] 伦理 特定下游任务 毒性、偏差与价值一致性
MMLU[70] 文本模型 通用语言任务 多任务准确率
MATH[72] 数学问题 特定下游任务 数学能力
APPS [68] 编码挑战能力 特定下游任务 代码生成能力
CELLO[66]
C - Eval [78]
复杂指令
中文评估
特定下游任务
通用语言任务
四项指定评估标准
中文语境下的52项考试
EmotionBench[76] 共情能力 特定下游任务 情绪变化
OpenLLM[80] 聊天机器人 通用语言任务 排行榜排名
DynaBench [94] 动态评估 通用语言任务 自然语言推理、问答、情感分析与仇恨言论检测
Chatbot Arena [128] 聊天助手 通用语言任务 众包和Elo评级系统
AlpacaEval [112] 自动评估 通用语言任务 指标、稳健性与多样性
CMMLU[108] 中文多任务处理 特定下游任务 多任务语言理解能力
HELM[114] 整体评估 通用语言任务 多指标
API - Bank [109] 工具利用 特定下游任务 API调用、检索与规划能力
M3KE[122] 多任务 特定下游任务 多任务准确率
MMBench[126] 大型视觉 - 语言模型(LVLMs) 多模态任务 视觉 - 语言模型的多方面能力
SEED - Bench [107] 多模态大语言模型 多模态任务 多模态大语言模型的生成性理解能力
UHGEval [116] 中文大语言模型的幻觉问题 特定下游任务 形式、指标与粒度
ARB[171] 高级推理能力 特定下游任务 多领域高级推理能力
BIG - bench [182] 大语言模型的能力与局限 通用语言任务 模型性能与校准
MultiMedQA[177] 医学问答 特定下游任务 准确率与人评
CVALUES[230] 安全性与责任性 特定下游任务 大语言模型的对齐能力
LVLM - eHub[231]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

洞明智能

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值