GAIA（General AI Assistants Benchmark）

FserSuN

于 2025-06-18 01:36:30 发布

阅读量371

点赞数 4

CC 4.0 BY-SA版权

分类专栏： LLM 文章标签：人工智能

本文链接：https://blog.csdn.net/Revivedsun/article/details/148727334

LLM 专栏收录该内容

10 篇文章

订阅专栏

简介

GAIA（General AI Assistants Benchmark）是一个专注于评估通用人工智能助手在自主规划、多步骤推理、工具调用、上下文记忆、多模态处理等现实任务中综合能力的基准测试。其测试用例设计强调对人类简单但对AI复杂的任务，覆盖从基础到高级的多样化场景。以下是其测试用例的主要类型及示例：

一、测试用例的核心分类与示例

1. 基础任务（Level 1）

特点：单一步骤或简单工具使用（如基本搜索、计算）。
示例：“法国的首都是什么？”（纯知识检索）“根据美国国立卫生研究院网站记录，2018年1月至5月期间，对幽门螺杆菌在痤疮患者中的临床试验的实际入组人数是多少？”（需网页浏览与数据提取，标准答案为90）

2. 中级任务（Level 2）

特点：5-10步操作，需多工具协同（如搜索+数据分析+逻辑推理）。
示例1：“在2008年画作《乌兹别克斯坦的刺绣》中展示的水果中，哪些是1949年10月海洋班轮早餐菜单的一部分？按画作中顺时针顺序列出水果的复数形式。”（需图像识别、历史菜单查询、排序逻辑）
示例2：“计算整杯冰淇淋的牛油脂含量与美国联邦标准的偏差百分比（保留一位小数，用±表示）。”（需维基百科查询、数值计算，标准答案为+4.6）

3. 高级任务（Level 3）

特点：开放式复杂任务，需自主规划长步骤链和多工具组合。
示例1：“解析NASA 2006年1月21日每日天文图片中的宇航员信息，关联数据库查询太空停留时间最短的宇航员姓名及分钟数。”（需图像分析、数据库检索、时间计算，标准答案为“White；5,876”）
示例2：“生成市场趋势分析报告，整合多源数据并调用可视化工具输出图表。”（需跨平台数据抓取、分析、图表生成）