AgentBench快速上手:从零开始的智能体评测完全指南
项目概述
AgentBench是由THUDM开发的一个综合性评测框架,旨在评估大型语言模型(LLMs)作为智能体在不同环境下的性能表现。该项目通过多个不同的环境来全面评估LLM的自主操作能力,为研究者和开发者提供一个标准化的智能体能力评估平台。
核心功能特性
AgentBench具备以下核心功能:
- 多环境评测:涵盖操作系统、数据库、知识图谱、数字卡牌游戏等8个不同环境
- 标准化接口:提供统一的Agent-Task交互接口
- 可扩展架构:支持新任务环境的快速集成
- 函数调用支持:基于AgentRL框架的函数调用版本
系统架构设计
AgentBench采用模块化设计,将系统分为三个主要组件:
- Agent服务器:负责智能体的推理和决策
- Task服务器:提供任务环境的执行和反馈
- 客户端:协调任务分配和结果收集
快速开始指南
环境准备
首先克隆项目并安装依赖:
git clone https://gitcode.com/gh_mirrors/ag/AgentBench
cd AgentBench
conda create -n agent-bench python=3.9
conda activate agent-bench
pip install -r requirements.txt
Docker环境配置
确保Docker已正确安装:
docker ps
构建所需的Docker镜像:
# dbbench任务
docker pull mysql:8
# os_interaction任务
docker build -t local-os/default -f ./data/os_interaction/res/dockerfiles/default data/os_interaction/res/dockerfiles
docker build -t local-os/packages -f ./data/os_interaction/res/dockerfiles/packages data/os_interaction/res/dockerfiles
docker build -t local-os/ubuntu -f ./data/os_interaction/res/dockerfiles/ubuntu data/os_interaction/res/dockerfiles
智能体配置
在configs/agents/openai-chat.yaml文件中配置你的API密钥:
api_key: your_openai_key_here
model: gpt-3.5-turbo-0613
服务启动
使用Docker Compose一键启动所有服务:
docker compose -f extra/docker-compose.yml up
该命令将启动以下服务:
- AgentRL控制器
- 各任务的工作进程
- Freebase服务器
- Redis服务器
任务测试
验证智能体配置是否正确:
python -m src.client.agent_test
如果需要使用其他智能体:
python -m src.client.agent_test --config configs/agents/api_agents.yaml --agent gpt-3.5-turbo-0613
评测任务详解
操作系统环境(OS)
评估LLM在真实操作系统环境中的交互能力,包括文件操作、用户管理等任务。
数据库环境(DB)
测试LLM在真实数据库环境中的SQL操作能力,涵盖复杂查询和数据操作。
知识图谱环境(KG)
基于Freebase知识图谱,评估智能体在部分可观测环境中的决策能力。
数字卡牌游戏(DCG)
通过简化版卡牌游戏Aquawar,评估LLM的策略规划和决策能力。
资源消耗说明
各任务的资源消耗情况如下:
| 任务名称 | 启动时间 | 内存消耗 |
|---|---|---|
| webshop | ~3分钟 | ~15GB |
| mind2web | ~5分钟 | ~1GB |
| db | ~20秒 | < 500MB |
| alfworld | ~10秒 | < 500MB |
| card_game | ~5秒 | < 500MB |
| ltp | ~5秒 | < 500MB |
| os | ~5秒 | < 500MB |
| kg | ~5秒 | < 500MB |
评测结果展示
AgentBench提供了详细的评测结果和排行榜,帮助用户了解不同模型的性能表现。
扩展与定制
AgentBench支持新任务的快速集成,开发者可以参考扩展指南文档添加自定义任务环境。框架的模块化设计使得每个组件都可以独立开发和部署。
注意事项
webshop环境需要约16GB内存才能启动alfworld任务存在内存和磁盘空间泄漏问题,需要定期重启工作进程- 确保机器有足够的资源后再运行评测任务
生态项目推荐
- VisualAgentBench:专门用于评估和训练基于大型多模态模型的视觉基础智能体
- AgentRL:端到端多任务多轮LLM智能体强化学习框架
通过本指南,你可以快速上手AgentBench,开始对大型语言模型的智能体能力进行全面评估。该框架的标准化设计和丰富的任务环境,为智能体研究和开发提供了强有力的支持。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考






