模型监控指标

Vertex AI 上的生成式 AI 提供了一个预构建的模型可观测性信息中心,用于查看全托管式模型的行为、健康状况和性能。全托管式模型(也称为模型即服务 [MaaS])由 Google 提供,包括 Google 的 Gemini 模型和具有托管端点的合作伙伴模型。信息中心不包含来自自托管模型的指标。

Vertex AI 上的生成式 AI 会自动收集并报告 MaaS 模型的活动,以帮助您快速排查延迟问题并监控容量。

Cloud Console 中的示例模型可观测性信息中心
模型可观测性信息中心示例

可用的监控指标

模型可观测性信息中心会显示 Cloud Monitoring 收集的部分指标,例如每秒模型请求数 (QPS)、token 吞吐量和第一个 token 延迟时间。查看信息中心,查看所有可用指标。

使用场景

作为应用开发者,您可以查看用户如何与您公开的模型进行互动。例如,您可以查看模型用量(每秒模型请求数)和用户提示的计算强度(模型调用延迟时间)随时间的趋势。因此,由于这些指标与模型用量相关,您还可以估算运行每个模型的费用。

出现问题时,您可以通过信息中心快速排查问题。您可以通过查看 API 错误率、第一个 token 延迟时间和 token 吞吐量,检查模型是否可靠且及时地进行回答。

限制

Vertex AI 仅会针对对模型端点的 API 调用捕获信息中心指标。Google Cloud 控制台使用情况(例如 Vertex AI Studio 中的指标)不会添加到信息中心。

查看信息中心

  1. 在 Google Cloud 控制台的“Vertex AI”部分中,前往信息中心页面。

    转到 Vertex AI

  2. 模型可观测性部分中,点击显示所有指标,以便在 Google Cloud Observability 控制台中查看模型可观测性信息中心。

  3. 如需查看特定模型或特定位置的指标,请在信息中心页面顶部设置一个或多个过滤条件。

    如需了解每个指标的说明,请参阅Google Cloud 指标页面上的“aiplatform”部分。

其他资源