GAIA(General AI Assistants Benchmark)

简介

GAIA(General AI Assistants Benchmark)是一个专注于评估通用人工智能助手在自主规划、多步骤推理、工具调用、上下文记忆、多模态处理等现实任务中综合能力的基准测试。其测试用例设计强调对人类简单但对AI复杂的任务,覆盖从基础到高级的多样化场景。以下是其测试用例的主要类型及示例:

​一、测试用例的核心分类与示例​

1. ​基础任务(Level 1)​​

  • ​特点​:单一步骤或简单工具使用(如基本搜索、计算)。
  • 示例​:“法国的首都是什么?”(纯知识检索)“根据美国国立卫生研究院网站记录,2018年1月至5月期间,对幽门螺杆菌在痤疮患者中的临床试验的实际入组人数是多少?”(需网页浏览与数据提取,标准答案为90)

2. ​中级任务(Level 2)​​

  • ​特点​:5-10步操作,需多工具协同(如搜索+数据分析+逻辑推理)。
  • 示例​1:“在2008年画作《乌兹别克斯坦的刺绣》中展示的水果中,哪些是1949年10月海洋班轮早餐菜单的一部分?按画作中顺时针顺序列出水果的复数形式。”(需图像识别、历史菜单查询、排序逻辑)
  • 示例2:“计算整杯冰淇淋的牛油脂含量与美国联邦标准的偏差百分比(保留一位小数,用±表示)。”(需维基百科查询、数值计算,标准答案为+4.6)

3. ​高级任务(Level 3)​​

  • ​特点​:开放式复杂任务,需自主规划长步骤链和多工具组合。
  • ​示例1​:“解析NASA 2006年1月21日每日天文图片中的宇航员信息,关联数据库查询太空停留时间最短的宇航员姓名及分钟数。”(需图像分析、数据库检索、时间计算,标准答案为“White;5,876”)
  • ​示例2​:“生成市场趋势分析报告,整合多源数据并调用可视化工具输出图表。”(需跨平台数据抓取、分析、图表生成)

​二、测试用例的共性设计原则​

  • 多模态处理​:结合文本、图像(如画作分析)、音频(如提取音频文件信息)、表格(如解析Excel数据)等模态。
  • ​工具链依赖​:强制调用搜索引擎、API(如航班查询)、代码解释器(如Python计算)等工具。
  • ​答案标准化​:所有问题要求唯一明确的答案​(如数值、日期、列表),避免主观评分干扰。
  • ​抗记忆性​:答案设计为无法通过预训练数据直接回忆,需动态执行任务获取。

​三、与其他基准的对比​

GAIA与传统基准(如ARC-AGI)的核心差异在于:

  1. ​从抽象谜题到真实任务​:例如ARC-AGI测试颜色方块推理,而GAIA要求处理简历筛选或医疗诊断建议。
  2. ​从静态评估到动态适应​:GAIA支持任务难度动态调整,模拟人类应对突发问题的能力。

附录

[1].GAIA官方发布的466个问题(Hugging Face数据集)。https://huggingface.co/datasets/gaia-benchmark/GAIA

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值