智能体评估

本文档介绍了如何使用代理评估来衡量和提升代理的性能、安全性和质量。

如需详细了解模型评估,请参阅 Gen AI Evaluation Service 概览

程序摘要

阶段 活动 目标
设计 定义评估案例 指定代理任务和预期结果。
执行 运行推理 生成真实或模拟的对话轨迹。
评分 计算指标 使用自动评分器(任务成功率、安全性)对轨迹进行评分。
优化 优化智能体 提出并验证对指令或工具的改进建议。

评估流程

评估遵循结构化的迭代工作流程:

  1. 定义评估用例评估用例是一种用于定义智能体任务的规范。评估用例可以包含一个或多个对话步骤、对话上下文(代理的状态),以及用于在推理期间模拟用户响应的规范。
  2. 运行推理推理是指执行评估情形。如果评估用例包含对话方案,则在推理期间会模拟用户回答。
  3. 生成轨迹:每次推理运行都会在轨迹中捕获智能体的行为。轨迹是代理行为的真实且不可变的记录,包括模型输入、响应和工具调用。
  4. 计算指标指标是使用预建或自定义评估者为每个轨迹计算的分数。某些指标(例如完全匹配)是基于参考答案的,需要包含参考答案的评估情形。其他指标(例如帮助性)是不基于参考答案的,可单独评估轨迹。借助这种自动化评估,您可以对从生产流量或外部日志捕获的轨迹进行评分,而无需依赖受管理的测试环境。
  5. 进行分析:分析指标、评分标准和判决,以找出关键的代理问题,将代理问题与测试用例相关联,并生成改进意见。
  6. 优化智能体:使用优化功能来管理整个评估周期。此自动化流程会分析结果,提出智能体改进建议,并以迭代方式重新运行该流程,以验证性能提升。

评估工作流

您可以将评估集成到工作流程的两个主要阶段:

  • 本地开发迭代:在本地评估基于智能体开发套件 (ADK) 的智能体,以便快速迭代提示工程和工具配置。
  • 已部署的代理评估:通过分析历史轨迹或针对代理端点运行合成基准,衡量已部署代理的质量。

核心功能

智能体评估功能可帮助您构建初始评估套件,即使没有现有的测试数据也能做到。以下功能有助于自动执行生成测试用例和优化智能体系统的流程:

  • 场景生成和用户模拟:根据智能体的指令和工具定义,自动生成多样化的多轮合成测试场景。借助此自动化功能,您无需手动编写初始测试用例,即可立即开始测试。

  • 环境模拟:拦截特定的工具调用,以注入自定义行为、模拟数据或模拟错误(例如 HTTP 503 错误或延迟峰值)。通过此模拟,您可以在不影响生产后端的情况下验证代理的恢复能力。

  • 多轮评估:使用多轮自动评分器自动评估整个对话历史记录。这些评估者会分析意图提取情况、动态生成评分准则,并提供客观的验证结果,以帮助确保指令遵循情况。

  • 提示优化:通过提示优化以编程方式生成和验证精细的系统指令。优化框架会找出故障点,并以迭代方式提出有针对性的更新。

使用 AI 编码助理进行评估

如果您使用 Gemini CLI 或其他 AI 编码助理,可以安装智能体技能,让助理学习本页面所述的智能体评估方法。每项技能都会在编码会话中直接提供评估工作流程、数据集架构、指标选择指南和失败分析步骤,因此您的助理无需离开编辑器即可构建、评分和改进评估。

每项技能后面都附有安装说明。

Agents CLI eval 技能

一种通过 CLI 驱动的工作流,用于使用 agents-cli eval 命令评估和优化智能体开发套件 (ADK) 智能体。本技能涵盖以下内容:

  • 准备评估数据集并使用用户模拟合成多轮对话场景
  • 运行推理、对轨迹进行分级和分析故障集群
  • 通过评估-修复循环迭代提示和工具

如需安装 ,请运行以下命令:

npx skills add https://github.com/google/agents-cli --skill google-agents-cli-eval

Agent Platform GenAI Evaluation Service 飞轮技能

一个由 SDK 驱动的剧本,用于通过 Agent Platform GenAI Evaluation Service 使用 Agent Platform GenAI Evaluation SDK (client.evals.evaluate()) 评估和改进模型和代理。此技能涵盖以下内容:

  • 基于会话轨迹、DataFrame 或合成生成来构建评估数据集
  • 使用 LLM 作为评判器进行评分,选择、配置和写入自定义指标
  • 分析评分准则判决和损失模式,以推动具体改进

如需安装 ,请运行以下命令:

npx skills add https://github.com/google/skills --skill agent-platform-eval-flywheel

后续步骤