简介
GAIA(General AI Assistants Benchmark)是一个专注于评估通用人工智能助手在自主规划、多步骤推理、工具调用、上下文记忆、多模态处理等现实任务中综合能力的基准测试。其测试用例设计强调对人类简单但对AI复杂的任务,覆盖从基础到高级的多样化场景。以下是其测试用例的主要类型及示例:
一、测试用例的核心分类与示例
1. 基础任务(Level 1)
- 特点:单一步骤或简单工具使用(如基本搜索、计算)。
- 示例:“法国的首都是什么?”(纯知识检索)“根据美国国立卫生研究院网站记录,2018年1月至5月期间,对幽门螺杆菌在痤疮患者中的临床试验的实际入组人数是多少?”(需网页浏览与数据提取,标准答案为90)
2. 中级任务(Level 2)
- 特点:5-10步操作,需多工具协同(如搜索+数据分析+逻辑推理)。
- 示例1:“在2008年画作《乌兹别克斯坦的刺绣》中展示的水果中,哪些是1949年10月海洋班轮早餐菜单的一部分?按画作中顺时针顺序列出水果的复数形式。”(需图像识别、历史菜单查询、排序逻辑)
- 示例2:“计算整杯冰淇淋的牛油脂含量与美国联邦标准的偏差百分比(保留一位小数,用±表示)。”(需维基百科查询、数值计算,标准答案为+4.6)
3. 高级任务(Level 3)
- 特点:开放式复杂任务,需自主规划长步骤链和多工具组合。
- 示例1:“解析NASA 2006年1月21日每日天文图片中的宇航员信息,关联数据库查询太空停留时间最短的宇航员姓名及分钟数。”(需图像分析、数据库检索、时间计算,标准答案为“White;5,876”)
- 示例2:“生成市场趋势分析报告,整合多源数据并调用可视化工具输出图表。”(需跨平台数据抓取、分析、图表生成)
二、测试用例的共性设计原则
- 多模态处理:结合文本、图像(如画作分析)、音频(如提取音频文件信息)、表格(如解析Excel数据)等模态。
- 工具链依赖:强制调用搜索引擎、API(如航班查询)、代码解释器(如Python计算)等工具。
- 答案标准化:所有问题要求唯一明确的答案(如数值、日期、列表),避免主观评分干扰。
- 抗记忆性:答案设计为无法通过预训练数据直接回忆,需动态执行任务获取。
三、与其他基准的对比
GAIA与传统基准(如ARC-AGI)的核心差异在于:
- 从抽象谜题到真实任务:例如ARC-AGI测试颜色方块推理,而GAIA要求处理简历筛选或医疗诊断建议。
- 从静态评估到动态适应:GAIA支持任务难度动态调整,模拟人类应对突发问题的能力。
附录
[1].GAIA官方发布的466个问题(Hugging Face数据集)。https://huggingface.co/datasets/gaia-benchmark/GAIA