本文档介绍了如何使用代理评估来衡量和提升代理的性能、安全性和质量。
如需详细了解模型评估,请参阅 Gen AI Evaluation Service 概览。
程序摘要
| 阶段 | 活动 | 目标 |
|---|---|---|
| 设计 | 定义评估案例 | 指定代理任务和预期结果。 |
| 执行 | 运行推理 | 生成真实或模拟的对话轨迹。 |
| 评分 | 计算指标 | 使用自动评分器(任务成功率、安全性)对轨迹进行评分。 |
| 优化 | 优化智能体 | 提出并验证对指令或工具的改进建议。 |
评估流程
评估遵循结构化的迭代工作流程:
- 定义评估用例:评估用例是一种用于定义智能体任务的规范。评估用例可以包含一个或多个对话步骤、对话上下文(代理的状态),以及用于在推理期间模拟用户响应的规范。
- 运行推理:推理是指执行评估情形。如果评估用例包含对话方案,则在推理期间会模拟用户回答。
- 生成轨迹:每次推理运行都会在轨迹中捕获智能体的行为。轨迹是代理行为的真实且不可变的记录,包括模型输入、响应和工具调用。
- 计算指标:指标是使用预建或自定义评估者为每个轨迹计算的分数。某些指标(例如完全匹配)是基于参考答案的,需要包含参考答案的评估情形。其他指标(例如帮助性)是不基于参考答案的,可单独评估轨迹。借助这种自动化评估,您可以对从生产流量或外部日志捕获的轨迹进行评分,而无需依赖受管理的测试环境。
- 进行分析:分析指标、评分标准和判决,以找出关键的代理问题,将代理问题与测试用例相关联,并生成改进意见。
- 优化智能体:使用优化功能来管理整个评估周期。此自动化流程会分析结果,提出智能体改进建议,并以迭代方式重新运行该流程,以验证性能提升。
评估工作流
您可以将评估集成到工作流程的两个主要阶段:
- 本地开发迭代:在本地评估基于智能体开发套件 (ADK) 的智能体,以便快速迭代提示工程和工具配置。
- 已部署的代理评估:通过分析历史轨迹或针对代理端点运行合成基准,衡量已部署代理的质量。
核心功能
智能体评估功能可帮助您构建初始评估套件,即使没有现有的测试数据也能做到。以下功能有助于自动执行生成测试用例和优化智能体系统的流程:
场景生成和用户模拟:根据智能体的指令和工具定义,自动生成多样化的多轮合成测试场景。借助此自动化功能,您无需手动编写初始测试用例,即可立即开始测试。
环境模拟:拦截特定的工具调用,以注入自定义行为、模拟数据或模拟错误(例如 HTTP 503 错误或延迟峰值)。通过此模拟,您可以在不影响生产后端的情况下验证代理的恢复能力。
多轮评估:使用多轮自动评分器自动评估整个对话历史记录。这些评估者会分析意图提取情况、动态生成评分准则,并提供客观的验证结果,以帮助确保指令遵循情况。
提示优化:通过提示优化以编程方式生成和验证精细的系统指令。优化框架会找出故障点,并以迭代方式提出有针对性的更新。
使用 AI 编码助理进行评估
如果您使用 Gemini CLI 或其他 AI 编码助理,可以安装智能体技能,让助理学习本页面所述的智能体评估方法。每项技能都会在编码会话中直接提供评估工作流程、数据集架构、指标选择指南和失败分析步骤,因此您的助理无需离开编辑器即可构建、评分和改进评估。
每项技能后面都附有安装说明。
Agents CLI eval 技能
一种通过 CLI 驱动的工作流,用于使用 agents-cli eval 命令评估和优化智能体开发套件 (ADK) 智能体。本技能涵盖以下内容:
- 准备评估数据集并使用用户模拟合成多轮对话场景
- 运行推理、对轨迹进行分级和分析故障集群
- 通过评估-修复循环迭代提示和工具
如需安装 ,请运行以下命令:
npx skills add https://github.com/google/agents-cli --skill google-agents-cli-eval
Agent Platform GenAI Evaluation Service 飞轮技能
一个由 SDK 驱动的剧本,用于通过 Agent Platform GenAI Evaluation Service 使用 Agent Platform GenAI Evaluation SDK (client.evals.evaluate()) 评估和改进模型和代理。此技能涵盖以下内容:
- 基于会话轨迹、DataFrame 或合成生成来构建评估数据集
- 使用 LLM 作为评判器进行评分,选择、配置和写入自定义指标
- 分析评分准则判决和损失模式,以推动具体改进
如需安装 ,请运行以下命令:
npx skills add https://github.com/google/skills --skill agent-platform-eval-flywheel