Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

智能体评估

本文档介绍了如何使用代理评估来衡量和提升代理的性能、安全性和质量。

如需详细了解模型评估，请参阅 Gen AI Evaluation Service 概览。

程序摘要

评估遵循结构化的迭代工作流程：

定义评估用例：评估用例是一种用于定义智能体任务的规范。评估用例可以包含一个或多个对话步骤、对话上下文（代理的状态），以及用于在推理期间模拟用户响应的规范。
运行推理：推理是指执行评估情形。如果评估用例包含对话方案，则在推理期间会模拟用户回答。
生成轨迹：每次推理运行都会在轨迹中捕获智能体的行为。轨迹是代理行为的真实且不可变的记录，包括模型输入、响应和工具调用。
计算指标：指标是使用预建或自定义评估者为每个轨迹计算的分数。某些指标（例如完全匹配）是基于参考答案的，需要包含参考答案的评估情形。其他指标（例如帮助性）是不基于参考答案的，可单独评估轨迹。借助这种自动化评估，您可以对从生产流量或外部日志捕获的轨迹进行评分，而无需依赖受管理的测试环境。
进行分析：分析指标、评分标准和判决，以找出关键的代理问题，将代理问题与测试用例相关联，并生成改进意见。
优化智能体：使用优化功能来管理整个评估周期。此自动化流程会分析结果，提出智能体改进建议，并以迭代方式重新运行该流程，以验证性能提升。

您可以将评估集成到工作流程的两个主要阶段：

智能体评估功能可帮助您构建初始评估套件，即使没有现有的测试数据也能做到。以下功能有助于自动执行生成测试用例和优化智能体系统的流程：

场景生成和用户模拟：根据智能体的指令和工具定义，自动生成多样化的多轮合成测试场景。借助此自动化功能，您无需手动编写初始测试用例，即可立即开始测试。
环境模拟：拦截特定的工具调用，以注入自定义行为、模拟数据或模拟错误（例如 HTTP 503 错误或延迟峰值）。通过此模拟，您可以在不影响生产后端的情况下验证代理的恢复能力。
多轮评估：使用多轮自动评分器自动评估整个对话历史记录。这些评估者会分析意图提取情况、动态生成评分准则，并提供客观的验证结果，以帮助确保指令遵循情况。
提示优化：通过提示优化以编程方式生成和验证精细的系统指令。优化框架会找出故障点，并以迭代方式提出有针对性的更新。

如果您使用 Gemini CLI 或其他 AI 编码助理，可以安装智能体技能，让助理学习本页面所述的智能体评估方法。每项技能都会在编码会话中直接提供评估工作流程、数据集架构、指标选择指南和失败分析步骤，因此您的助理无需离开编辑器即可构建、评分和改进评估。

每项技能后面都附有安装说明。

一种通过 CLI 驱动的工作流，用于使用 agents-cli eval 命令评估和优化智能体开发套件 (ADK) 智能体。本技能涵盖以下内容：

如需安装，请运行以下命令：

npx skills add https://github.com/google/agents-cli --skill google-agents-cli-eval

一个由 SDK 驱动的剧本，用于通过 Agent Platform GenAI Evaluation Service 使用 Agent Platform GenAI Evaluation SDK (client.evals.evaluate()) 评估和改进模型和代理。此技能涵盖以下内容：

如需安装，请运行以下命令：

npx skills add https://github.com/google/skills --skill agent-platform-eval-flywheel