评估LLM对于确保LLM在不同任务中的表现至关重要,不仅能定量了解模型在各方面的实际效果,还能揭示模型的局限性和改进空间。目前已有的评估方法包括自动化指标、人工评估、特定任务的评估指标以及性能评估。
自动化指标如困惑度(Perplexity)、BLEU、ROUGE和METEOR等,能快速量化模型的输出质量,但在捕捉语义细微差别上有所欠缺,通常需要再结合人工评估,从流畅性、相关性和一致性等角度对文本质量进行更细致的审查。同时,针对特定任务(如问答、对话生成)还会采用专门的指标,以衡量模型在具体应用中的表现。最后,模型的推理速度、内存和计算资源消耗等性能指标对于实际应用的可行性也十分重要。综合使用这些评估方法,可以细致了解LLM各方面的任务表现和性能,从而为模型优化提供准确指导。
另一个值得关注的点是评估对象。在评估LLM时,通常需要区分模型评估(Model Eval)和系统评估(System Eval)。
- 模型评估主要关注模型在特定任务(如聊天机器人和翻译)中的独立表现,通常使用GLUE和SuperGLUE等基准测试,并通过专门的数据集进行微调,以提升模型的任务适应性。
- 系统评估则着眼于整个系统的表现,包括提示设计、数据处理和系统设置等,确保系统在实际应用中的稳定性和有效性。总体而言,模型评估模型本身的性能,而系统评估则评估模型在整体系统中的协同效果和实际应用效果。
表1 LLM评估指标类型及示例
类型 |
描述 |
具体指标 |
多样性 |
模型是否能够有效应对不同类型的查询? |
Fluency、Perplexity、ROUGE scores |
用户反馈 |
利用用户反馈检查模型的偏好一致性和准确性。 |
Coherence、Quality、Relevance |
正确性 |
将RAG的响应与一组预定义的正确答案进行比较 |
Binary classification(Correct/ Incorrect) |
相关性 |
模型的响应是否与用户查询高度相关? |
Binary classification(Relevant/ Irrelevant) |
有害性 |
模型的响应中是否包含有害或不适当的内容? |
Disparity Analysis、Fairness Scoring、Binary classification(Non-Toxic/ Toxic) |
- LLM常用基准测试
在评估LLM时,为了实现公平、透明的对比,标准化的基准测试(benchmarks)应运而生。具体而言,基准测试的目的是通过将所有模型置于相同的测试条件下,提供统一的“考试”来评估模型的性能。基准测试根据具体任务进行,涵盖了对话、语言能力、数学问题求解、编码等多个方面。每种基准测试包括一组文本输入或任务,通常提供正确答案,并有一个评分系统来比较结果。因此,通过对LLM进行基准测试,可以确保评估过程的公正性,还能为模型的进一步优化提供了一个明确的参考,帮助研究人员或开发人员更好地理解和比较不同模型的优势和局限。
以下内容将主要介绍Open LLM排行榜上的四个重要评测基准。
- AI2 推理挑战(ARC)
ARC(AI2推理挑战)[2]基准测试是由Allen人工智能研究所(AI2)创建的,用于评估AI模型在回答复杂科学问题时的逻辑推理能力,而不仅仅依赖模式匹配。该数据集包含超过7700道小学至中学水平的多项选择题,涵盖科学知识和推理。ARC数据集分为“简单集”(Easy Set)和“挑战集”(Challenge Set):简单集包含能够通过基础检索方法轻松解答的问题,而挑战集则专门收录了那些常规的检索技术和词共现算法难以解答的问题。这一设计旨在测试AI系统是否具备超越简单信息检索的推理和理解能力,使ARC成为评估和推动问答系统发展的重要基准。
- HellaSwag基准测试
HellaSwag数据集是一个专为评估AI模型在常识性自然语言推理(NLI)方面表现的高难度基准[3]。该数据集由一系列四选项的多项选择题组成,每个题目都包含一个场景描述和四个可能的结局选项,其中仅有一个是正确的。对人类而言,这些题目相对简单(人类准确率超过95%),但对于现有的大模型却充满挑战。HellaSwag数据集的构建采用了对抗性过滤(Adversarial Filtering, AF)技术,这一方法源于生成对抗网络(GAN)的思想在NLP领域的应用:生成器(如GPT)生成具有迷惑性的错误选项,而判别器(如BERT)则用于评估这些选项的合理性。通过迭代地筛选和优化这些机器生成的错误选项,HellaSwag最终形成了一个对现有大模型来说难以区分的高难度数据集,从而有效测试了模型的常识理解和推理能力。
- MMLU基准测试
Massive Multitask Language Understanding (MMLU)(大规模多任务语言理解)评测是一个新的基准测试[4],旨在评估LLM在广泛的常识知识和问题解决能力方面的表现。MMLU覆盖57个学科,从基础数学和美国历史到计算机科学和法律等,题目难度从高中水平延伸至专家级别。数据集包含超过1.5万道多项选择题,模型在每个学科的得分是正确回答的比例,最终得分则是所有学科平均得分的百分比。
与传统测试不同,MMLU在零样本和少样本的设置下进行评估,以衡量模型在预训练期间获得的知识。这种评测方式更具挑战性,同时也更接近人类的评估方式,使得MMLU成为测试LMs通识水平和跨领域理解能力的关键基准。
- TruthfulQA基准测试
TruthfulQA基准测试是一个用于评估LLM生成真实、准确回复的基准[5],旨在测试模型是否能避免生成虚假或误导性的信息,尤其是在容易受到误解的领域。该数据集包含了800多个问题,涵盖健康、法律、金融和政治等38个类别,涉及许多常见的误解主题,如都市传说、阴谋论、伪科学和普遍流传的谣言。问题示例包括“疫苗会导致自闭症吗?”或“长城能从太空看到吗?”这些问题往往包含人们容易误信的内容。
为了在TruthfulQA中表现出色,模型必须识别并避开这些流行的误解,提供符合事实的回答。通过这种设计,TruthfulQA能够有效评估大模型在生成真实内容方面的能力,使其成为衡量模型在常识性问题上保持客观性和可靠性的关键基准之一。
除了以上提到的Open LLM排行榜上的四个重要评测基准外,许多其他基准测试也被广泛采用,如BigBench[6]、SuperGLUE[7]和WinoGrande[8]等。这些基准测试涵盖了语言理解、常识推理、问答等多方面任务,为全面评估LMs的各项能力提供了丰富的测试维度,助力推动AI模型在多任务环境中的性能提升。
LLM常用评估框架和工具
随着大模型的快速发展,LLM的性能评估越来越受到研究人员的重视。有效的评估框架和工具不仅帮助研究人员和工程师全面了解模型在不同任务和领域中的表现,还为模型的改进和优化提供了宝贵的参考。如表2所示,当前,业内已有多种成熟的评估框架和工具,涵盖了从生成质量、推理能力、常识理解到公平性和安全性等多个维度。以下部分将介绍十个最受欢迎的LLM评估框架和工具,它们在不同的应用场景中为LLM的测试和性能提升提供了坚实的支持。这些工具为用户提供了灵活的评估指标和直观的分析视图,有助于更高效地监控和优化LLM的表现。
表2 十个最受欢迎的LLM评估框架和工具
平台/框架 |
描述 |
Superannotate[9] |
一个高度可定制的编辑工具,帮助企业构建评估和微调数据集,从而提升模型性能。其灵活的编辑器适用于各种行业和应用场景,可以针对特定需求创建个性化的数据集,支持模型在不同任务中的优化和精确度提升。 |
Amazon Bedrock[10] |
亚马逊推出的LLM平台,包含评估功能,特别适合在AWS上部署模型。它可以与SuperAnnotate集成,使用户能够利用SuperAnnotate的编辑器构建数据管道,并在Bedrock上微调模型,进一步优化模型性能。 |
Nvidia Nemo[11] |
一个云端微服务,专为自动基准测试而设计,支持对前沿基础模型和自定义模型的性能评估。它采用多种基准测试方法,包括学术来源、客户提交的基准以及使用LLM作为评判标准,提供全面的模型评估支持。 |
Azure AI Studio[12] |
微软推出的全面工具套件,提供丰富的内置指标和可自定义的评估流程,专为LLM的评估设计。对于已在Azure生态系统中工作的用户而言,它尤其方便,能够无缝集成并提升模型评估效率。 |
Weights & Biases[13] |
以其实验跟踪功能而闻名,并已扩展到LLM的评估领域。它是一个理想的平台,可以将模型训练和评估集中管理,方便用户在同一地点高效跟踪和优化模型性能。 |
LangSmith[14] |
由Anthropic开发,提供专为LM设计的评估工具,尤其在偏见检测和安全性测试方面表现出色。它帮助用户识别并缓解模型中的潜在偏见和安全风险,为构建更公正和安全的LMs提供支持。 |
TruLens[15] |
一个开源框架,专注于提升LLM的透明度和可解释性,帮助用户更好地理解模型的决策过程。对于需要解释模型行为的场景,TruLens是一个理想的选择。 |
Vertex AI Studio[16] |
谷歌的评估平台,专为LLM设计评估工具,能够与其Google Cloud服务良好集成。对于已在Google Cloud平台上工作的团队,Vertex AI Studio是一个便捷的选择,可以无缝衔接各种云服务,提升评估效率。 |
DeepEval[17] |
一个开源库,提供多样化的评估指标,便于全面衡量模型表现。其设计便于与现有的机器学习管道集成,是灵活高效的模型评估工具,适用于各种应用场景。 |
Prompt Flow[18] |
微软推出的测试工具,支持创建和评估复杂的LLM工作流,适合多步骤流程的测试和提示词的迭代优化。该工具可以帮助用户灵活地设计和调整模型的多步交互过程,以提升任务完成的精确度和效率。 |
LLM评估存在的挑战
即使LLM已经得到了深度发展,但评估LLM仍面临诸多挑战。
- 训练数据的重叠性难以避免,模型可能在训练中接触过测试数据,导致过拟合,使得评估结果看起来优于实际能力。
- 目前的评估指标过于泛化,缺乏能够衡量LLM在不同人群、文化和语言上的表现的手段,往往只关注准确性和相关性,忽略了多样性和创新性等因素,这可能导致模型在公平性和包容性上的不足。
- 基准测试往往无法代表真实的应用场景,许多任务缺乏高质量的人类创建的参考数据,从而限制了模型在实际应用中的有效评估。
- 研究发现LLM的表现存在不稳定性,时好时坏,偶尔表现出色,但也可能出现低级错误和幻觉现象,这种不稳定性使得整体性能评估变得复杂。且对于表现顶尖的LMs,已有的评分方式往往显得不足,因为现有的标准难以衡量接近人类水平或超越人类的生成效果。
- 人类评估虽有价值,但主观性强,容易产生偏见,且在大规模应用中成本较高;如果使用其他AI模型对LLM进行评估也可能存在偏见,这通常源于评估模型的训练数据或模型结构,导致其在某些方面的判断不够全面或客观。例如,用于评分的AI模型可能在语言、情感理解、文化背景等方面具有特定的倾向性,从而影响评估的公正性,导致最终的自动化评估结果不够可靠。
因此,如何克服这些盲点,确保LLM评估的全面性和准确性,仍是当前的研究难点。