Vertex AI 上的生成式 AI 会自动收集并报告 MaaS 模型的活动,以帮助您快速排查延迟问题并监控容量。

可用的监控指标
模型可观测性信息中心会显示 Cloud Monitoring 收集的部分指标,例如每秒模型请求数 (QPS)、token 吞吐量和第一个 token 延迟时间。查看信息中心,查看所有可用指标。
使用场景
作为应用开发者,您可以查看用户如何与您公开的模型进行互动。例如,您可以查看模型用量(每秒模型请求数)和用户提示的计算强度(模型调用延迟时间)随时间的趋势。因此,由于这些指标与模型用量相关,您还可以估算运行每个模型的费用。
出现问题时,您可以通过信息中心快速排查问题。您可以通过查看 API 错误率、第一个 token 延迟时间和 token 吞吐量,检查模型是否可靠且及时地进行回答。
限制
Vertex AI 仅会针对对模型端点的 API 调用捕获信息中心指标。Google Cloud 控制台使用情况(例如 Vertex AI Studio 中的指标)不会添加到信息中心。
查看信息中心
在 Google Cloud 控制台的“Vertex AI”部分中,前往信息中心页面。
在模型可观测性部分中,点击显示所有指标,以便在 Google Cloud Observability 控制台中查看模型可观测性信息中心。
如需查看特定模型或特定位置的指标,请在信息中心页面顶部设置一个或多个过滤条件。
如需了解每个指标的说明,请参阅Google Cloud 指标页面上的“aiplatform”部分。
其他资源
- 如需为信息中心创建提醒,请参阅 Monitoring 文档中的提醒概览页面。
- 如需了解指标数据保留,请参阅 Monitoring 配额和限制。
- 如需了解静态数据,请参阅保护静态数据。
- 如需查看 Cloud Monitoring 收集的所有指标的列表,请参阅Google Cloud 指标页面上的“aiplatform”部分。