建立服務等級目標

如要監控服務,您至少要有一個服務等級目標 (SLO)。服務等級目標涵蓋了您對該項服務設定的效能目標。每個服務水準目標都以效能指標為依據,稱為服務水準指標 (SLI)。如需有關 SLI 和 SLO 的背景資訊,請參閱「服務監控的概念」。

您最多可以為一項服務建立 500 個 SLO。

事前準備

如要取得查看及建立服務等級目標所需的權限,請要求管理員為您授予專案的 Monitoring 編輯者 (roles/monitoring.editor) IAM 角色。如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和機構的存取權」。

您或許還可透過自訂角色或其他預先定義的角色取得必要權限。

開始使用

如要定義 SLO,請前往「建立服務水準目標 (SLO)」窗格。

  1. 在 Google Cloud 控制台中,前往 「SLOs」頁面:

    前往「服務等級目標

    如果您是使用搜尋列尋找這個頁面,請選取子標題為「Monitoring」的結果

  2. 開啟「建立服務等級目標 (SLO)」窗格:

    如為新服務:

    1. 按一下「定義服務」,然後定義服務
    2. 在「Define service」窗格中按一下「Submit」後,請按一下「Create SLO」

    如為現有服務:

    1. 在「Services」清單中,按一下「Services」清單中的服務名稱。
    2. 在「Service details」(服務詳細資料)頁面中,按一下「Create SLO」(建立 SLO)

服務等級目標建立窗格會引導您逐步完成服務等級目標建立程序。本文其餘部分將說明 SLO 建立程序中的下列各個步驟:

  1. 設定 SLI。
  2. 定義 SLI 詳細資料。
  3. 設定服務水準目標。
  4. 檢查並儲存服務等級目標。

如要前往下一個步驟,請點選「繼續」。您可以按一下前一個步驟,在儲存 SLO 前進行變更。如要退出 SLO 建立程序,請按一下「取消」

設定 SLI

「設定 SLI」窗格包含下列子窗格:

  • 服務詳細資料:回報服務的識別資訊。這與服務資訊主頁的「服務詳細資料」窗格相同。

  • 選擇指標:選擇要監控的成效指標。

  • 以要求為準或以時間為準?,您可以選擇評估指標的方式。

下圖顯示 SLI 窗格:

使用「設定服務水準指標」窗格選擇效能指標

如要進一步瞭解 SLI 中使用的指標和評估方法,請參閱「服務水準指標」概念主題。

選擇指標

SLI 指標會指定您要評估的成效類型。在服務水準目標中,您可以根據指標建立比率,以便評估一段時間內的良好成效。您可以使用下列選項建立 SLI:

  • 可用性,評估使用者是否能輕鬆存取您的服務。
  • 延遲時間,用於評估服務回應使用者的速度。
  • 其他:可讓您指出要使用特定指標。您可以在「設定 SLI 詳細資料」窗格中指定指標,並說明如何建構 SLI。

有效的選項取決於您要設定的服務類型。

  • 如要為 Cloud Service Mesh、Google Kubernetes Engine 上的 Istio 和 App Engine 上的服務選擇要使用的選項,您可以選擇任何一個。這些服務的可用性和延遲時間指標已知,或是您選擇「其他」來使用自訂 SLI。

  • 對於以 GKE 為基礎的服務和自訂服務,您只能選擇「其他」。預設可用性和延遲時間 SLO 不包含 Prometheus 指標,且這些服務的其他有意義的可用性或延遲時間指標無法事先得知。

    如果您使用 Google Cloud Managed Service for Prometheus 設定 Prometheus 指標收集作業,就可以將收集到的 Prometheus 指標設為自訂 SLI。

選擇評估方法

選取 SLI 的指標後,請指定指標的評估方式。

  • 以要求為基礎的評估方式會根據特定期間內的要求總數,評估符合評估標準的要求數量。

  • 以時間範圍為依據的評估方式會將符合良好條件的評估期間數量,與評估期間總數進行比較。

無論採用哪種評估方法,您都必須在「設定 SLI 詳細資料」頁面中指定評估標準。

如要進一步瞭解這些評估類型,請參閱「以要求和時間窗口為依據的 SLO 中的合規性」。

設定 SLI 詳細資料

「定義 SLI 詳細資料」窗格內容取決於您在前一個步驟中選擇的指標和評估方法。

如果您選擇了可用性指標和以要求為準的評估方式,則不需要提供其他詳細資料。

以 Windows 為基礎的評估

如果您選取了以時間範圍為依據的評估方式,請在這個窗格中設定時間範圍的其他條件:良好條件和時間長度。

選擇良好條件和評估期間,設定 SLI 時間範圍。

良好條件會指出在評估期間內,必須評估為「良好」的時間範圍百分比。時間長度會指定時間範圍的長度。

延遲時間指標

如果您選擇了延遲指標,請在這個窗格中指定可接受的效能門檻值:

設定 SLI 的延遲門檻。

在評估 SLI 時,若延遲時間超過門檻,就會視為「不良」效能。

自訂 SLI

如果您選取「其他」做為 SLI 指標,請在這個窗格中指定要使用的指標。您可以輸入「成效指標」欄位,或從清單中選取指標。

清單中的指標分為兩種類型:

  • 分配比例指標
  • 時間序列比率指標

如果您使用 Google Cloud Managed Service for Prometheus 收集 Prometheus 指標,指標名稱會以 prometheus.googleapis.com/ 開頭。

以下螢幕截圖顯示部分清單:

選單中的指標會依照指標類型分類。

如果選取分布區間指標,您可以提供範圍 (高於、低於或介於兩者之間) 和篩選器來指定要監控的資源和要納入的任何標籤,藉此設定 SLI。設定窗格如下所示:

為分布切割指標設定範圍和篩選條件。

如果選取時間序列比率指標,您可以建立分子和分母篩選器來分類指標資料,通常是選取指標或資源類型中的標籤值。設定窗格如下所示:

為時序比率設定分子和分母篩選器。

如要進一步瞭解這些 SLI 類型,請參閱 DistributionCutTimeSeriesRatio 的 Monitoring API 參考資料頁面。

GKE 控制層指標

GKE 控制層指標是系統健康狀態的指標,可用於自訂 SLI。您必須先啟用這些指標的收集功能,才能使用這些指標。這些指標是由 Google Cloud Managed Service for Prometheus 收集。

  • 使用 [API 伺服器指標][gke-api-metrics] 追蹤 API 伺服器負載、傳回錯誤的 API 伺服器要求比例,以及 API 伺服器收到的要求回應延遲時間。
  • 當待處理的 Pod 資源不足時,您可以使用排程器指標主動回應排程問題。

如要進一步瞭解控制層指標,以及如何使用這些指標監控系統健康狀況,請參閱「使用控制層指標」。

預覽圖表

設定服務水準指標後,「定義 SLI 詳細資料」窗格會顯示預覽圖表,說明 SLI 如何評估這項服務的歷來成效。例如:

完成的 SLI 會顯示根據歷來資料繪製的圖表。

如果您剛建立或部署服務,可能還沒有任何資料。您還是可以建立 SLI,但無法取得歷史資料視圖。

設定服務水準目標

「設定服務水準目標」窗格包含下列區域:

  • 符合性期間:您可以在此設定評估 SLI 的時間範圍。

  • 成效目標:您可以在其中指定合規期間的效能門檻。

  • 預覽:會顯示一張圖表,顯示成效目標門檻,以及圖表,顯示評估 SLI 在遵循期間的結果。

選擇評估時間範圍和效能目標,設定 SLO。

評估時間範圍

您可以從選單中選取兩種法規遵循期間:

  • 日曆週期
  • 滾動週期

日曆週期會評估固定時間範圍 (週期長度) 內的合規性。期間結束後,系統會重設錯誤預算,並開始新的合規期間。

回溯期是指滑動期間。它也有長度,但相容性會計算過去 n 天的資料。新的一天開始時,系統會針對前 n 天重新計算符合規定的錯誤預算和剩餘錯誤預算。

如要進一步瞭解日曆和滾動式窗口法規遵循期,請參閱「法規遵循期」。

預覽圖表

設定服務水準目標後,「設定服務水準目標」窗格會顯示預覽圖表,說明服務水準目標如何評估這項服務的歷來成效。例如:

完成的服務水準目標會顯示根據歷來資料繪製的圖表。

如果您剛建立或部署服務,可能還沒有任何資料。您還是可以建立 SLO,但無法取得歷史資料視圖。

儲存服務等級目標

「Review and save」窗格只有一個欄位,即服務等級目標的顯示名稱。這個欄位的預設值會根據您在定義 SLO 時所做的選項,但您可以變更這個值,讓顯示名稱更具描述性。

這個窗格也會以 JSON 格式提供服務水準目標的預覽畫面。JSON 區塊會匯總 SLO,並可複製以搭配 serviceLevelObjectives.create 方法使用。如果變更任何 SLO 值,JSON 預覽畫面會自動更新。

下圖顯示預設名稱的欄位:

Monitoring 會為服務等級目標產生預設名稱。

確認顯示名稱無誤後,按一下「建立服務水準目標」

後續步驟

建立 SLO 後,您可以執行下列操作: