模型监控指标
使用集合让一切井井有条根据您的偏好保存内容并对其进行分类。

Vertex AI 上的生成式 AI 提供了一个预构建的模型可观测性信息中心，用于查看全托管式模型的行为、健康状况和性能。全托管式模型（也称为模型即服务 [MaaS]）由 Google 提供，包括 Google 的 Gemini 模型和具有托管端点的合作伙伴模型。信息中心不包含来自自托管模型的指标。

Vertex AI 上的生成式 AI 会自动收集并报告 MaaS 模型的活动，以帮助您快速排查延迟问题并监控容量。

Cloud Console 中的示例模型可观测性信息中心 — ^{模型可观测性信息中心示例}

可用的监控指标

模型可观测性信息中心会显示 Cloud Monitoring 收集的部分指标，例如每秒模型请求数 (QPS)、token 吞吐量和第一个 token 延迟时间。查看信息中心，查看所有可用指标。

使用场景

作为应用开发者，您可以查看用户如何与您公开的模型进行互动。例如，您可以查看模型用量（每秒模型请求数）和用户提示的计算强度（模型调用延迟时间）随时间的趋势。因此，由于这些指标与模型用量相关，您还可以估算运行每个模型的费用。

出现问题时，您可以通过信息中心快速排查问题。您可以通过查看 API 错误率、第一个 token 延迟时间和 token 吞吐量，检查模型是否可靠且及时地进行回答。

限制

Vertex AI 仅会针对对模型端点的 API 调用捕获信息中心指标。Google Cloud 控制台使用情况（例如 Vertex AI Studio 中的指标）不会添加到信息中心。

查看信息中心

在 Google Cloud 控制台的“Vertex AI”部分中，前往信息中心页面。

转到 Vertex AI
在模型可观测性部分中，点击显示所有指标，以便在 Google Cloud Observability 控制台中查看模型可观测性信息中心。

注意：只有当您或其他用户向项目中的 MaaS 模型发出 API 调用时，可观测性部分才会显示。
如需查看特定模型或特定位置的指标，请在信息中心页面顶部设置一个或多个过滤条件。

如需了解每个指标的说明，请参阅Google Cloud 指标页面上的“aiplatform”部分。

其他资源

如需为信息中心创建提醒，请参阅 Monitoring 文档中的提醒概览页面。
如需了解指标数据保留，请参阅 Monitoring 配额和限制。
如需了解静态数据，请参阅保护静态数据。
如需查看 Cloud Monitoring 收集的所有指标的列表，请参阅Google Cloud 指标页面上的“aiplatform”部分。