如要監控服務,您至少要有一個服務等級目標 (SLO)。服務等級目標涵蓋了您對該項服務設定的效能目標。每個服務水準目標都以效能指標為依據,稱為服務水準指標 (SLI)。如需有關 SLI 和 SLO 的背景資訊,請參閱「服務監控的概念」。
您最多可以為一項服務建立 500 個 SLO。
事前準備
如要取得查看及建立服務等級目標所需的權限,請要求管理員為您授予專案的 Monitoring 編輯者 (roles/monitoring.editor
) IAM 角色。如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和機構的存取權」。
開始使用
如要定義 SLO,請前往「建立服務水準目標 (SLO)」窗格。
-
在 Google Cloud 控制台中,前往
「SLOs」頁面:
如果您是使用搜尋列尋找這個頁面,請選取子標題為「Monitoring」的結果。
開啟「建立服務等級目標 (SLO)」窗格:
如為新服務:
- 按一下「定義服務」,然後定義服務。
- 在「Define service」窗格中按一下「Submit」後,請按一下「Create SLO」。
如為現有服務:
- 在「Services」清單中,按一下「Services」清單中的服務名稱。
- 在「Service details」(服務詳細資料)頁面中,按一下「Create SLO」(建立 SLO)。
服務等級目標建立窗格會引導您逐步完成服務等級目標建立程序。本文其餘部分將說明 SLO 建立程序中的下列各個步驟:
- 設定 SLI。
- 定義 SLI 詳細資料。
- 設定服務水準目標。
- 檢查並儲存服務等級目標。
如要前往下一個步驟,請點選「繼續」。您可以按一下前一個步驟,在儲存 SLO 前進行變更。如要退出 SLO 建立程序,請按一下「取消」。
設定 SLI
「設定 SLI」窗格包含下列子窗格:
服務詳細資料:回報服務的識別資訊。這與服務資訊主頁的「服務詳細資料」窗格相同。
選擇指標:選擇要監控的成效指標。
以要求為準或以時間為準?,您可以選擇評估指標的方式。
下圖顯示 SLI 窗格:
如要進一步瞭解 SLI 中使用的指標和評估方法,請參閱「服務水準指標」概念主題。
選擇指標
SLI 指標會指定您要評估的成效類型。在服務水準目標中,您可以根據指標建立比率,以便評估一段時間內的良好成效。您可以使用下列選項建立 SLI:
- 可用性,評估使用者是否能輕鬆存取您的服務。
- 延遲時間,用於評估服務回應使用者的速度。
- 其他:可讓您指出要使用特定指標。您可以在「設定 SLI 詳細資料」窗格中指定指標,並說明如何建構 SLI。
有效的選項取決於您要設定的服務類型。
如要為 Cloud Service Mesh、Google Kubernetes Engine 上的 Istio 和 App Engine 上的服務選擇要使用的選項,您可以選擇任何一個。這些服務的可用性和延遲時間指標已知,或是您選擇「其他」來使用自訂 SLI。
對於以 GKE 為基礎的服務和自訂服務,您只能選擇「其他」。預設可用性和延遲時間 SLO 不包含 Prometheus 指標,且這些服務的其他有意義的可用性或延遲時間指標無法事先得知。
如果您使用 Google Cloud Managed Service for Prometheus 設定 Prometheus 指標收集作業,就可以將收集到的 Prometheus 指標設為自訂 SLI。
選擇評估方法
選取 SLI 的指標後,請指定指標的評估方式。
以要求為基礎的評估方式會根據特定期間內的要求總數,評估符合評估標準的要求數量。
以時間範圍為依據的評估方式會將符合良好條件的評估期間數量,與評估期間總數進行比較。
無論採用哪種評估方法,您都必須在「設定 SLI 詳細資料」頁面中指定評估標準。
如要進一步瞭解這些評估類型,請參閱「以要求和時間窗口為依據的 SLO 中的合規性」。
設定 SLI 詳細資料
「定義 SLI 詳細資料」窗格內容取決於您在前一個步驟中選擇的指標和評估方法。
如果您選擇了可用性指標和以要求為準的評估方式,則不需要提供其他詳細資料。
以 Windows 為基礎的評估
如果您選取了以時間範圍為依據的評估方式,請在這個窗格中設定時間範圍的其他條件:良好條件和時間長度。
良好條件會指出在評估期間內,必須評估為「良好」的時間範圍百分比。時間長度會指定時間範圍的長度。
延遲時間指標
如果您選擇了延遲指標,請在這個窗格中指定可接受的效能門檻值:
在評估 SLI 時,若延遲時間超過門檻,就會視為「不良」效能。
自訂 SLI
如果您選取「其他」做為 SLI 指標,請在這個窗格中指定要使用的指標。您可以輸入「成效指標」欄位,或從清單中選取指標。
清單中的指標分為兩種類型:
- 分配比例指標
- 時間序列比率指標
如果您使用 Google Cloud Managed Service for Prometheus 收集 Prometheus 指標,指標名稱會以 prometheus.googleapis.com/
開頭。
以下螢幕截圖顯示部分清單:
如果選取分布區間指標,您可以提供範圍 (高於、低於或介於兩者之間) 和篩選器來指定要監控的資源和要納入的任何標籤,藉此設定 SLI。設定窗格如下所示:
如果選取時間序列比率指標,您可以建立分子和分母篩選器來分類指標資料,通常是選取指標或資源類型中的標籤值。設定窗格如下所示:
如要進一步瞭解這些 SLI 類型,請參閱 DistributionCut
和 TimeSeriesRatio
的 Monitoring API 參考資料頁面。
GKE 控制層指標
GKE 控制層指標是系統健康狀態的指標,可用於自訂 SLI。您必須先啟用這些指標的收集功能,才能使用這些指標。這些指標是由 Google Cloud Managed Service for Prometheus 收集。
- 使用 [API 伺服器指標][gke-api-metrics] 追蹤 API 伺服器負載、傳回錯誤的 API 伺服器要求比例,以及 API 伺服器收到的要求回應延遲時間。
- 當待處理的 Pod 資源不足時,您可以使用排程器指標主動回應排程問題。
如要進一步瞭解控制層指標,以及如何使用這些指標監控系統健康狀況,請參閱「使用控制層指標」。
預覽圖表
設定服務水準指標後,「定義 SLI 詳細資料」窗格會顯示預覽圖表,說明 SLI 如何評估這項服務的歷來成效。例如:
如果您剛建立或部署服務,可能還沒有任何資料。您還是可以建立 SLI,但無法取得歷史資料視圖。
設定服務水準目標
「設定服務水準目標」窗格包含下列區域:
符合性期間:您可以在此設定評估 SLI 的時間範圍。
成效目標:您可以在其中指定合規期間的效能門檻。
預覽:會顯示一張圖表,顯示成效目標門檻,以及圖表,顯示評估 SLI 在遵循期間的結果。
評估時間範圍
您可以從選單中選取兩種法規遵循期間:
- 日曆週期
- 滾動週期
日曆週期會評估固定時間範圍 (週期長度) 內的合規性。期間結束後,系統會重設錯誤預算,並開始新的合規期間。
回溯期是指滑動期間。它也有長度,但相容性會計算過去 n 天的資料。新的一天開始時,系統會針對前 n 天重新計算符合規定的錯誤預算和剩餘錯誤預算。
如要進一步瞭解日曆和滾動式窗口法規遵循期,請參閱「法規遵循期」。
預覽圖表
設定服務水準目標後,「設定服務水準目標」窗格會顯示預覽圖表,說明服務水準目標如何評估這項服務的歷來成效。例如:
如果您剛建立或部署服務,可能還沒有任何資料。您還是可以建立 SLO,但無法取得歷史資料視圖。
儲存服務等級目標
「Review and save」窗格只有一個欄位,即服務等級目標的顯示名稱。這個欄位的預設值會根據您在定義 SLO 時所做的選項,但您可以變更這個值,讓顯示名稱更具描述性。
這個窗格也會以 JSON 格式提供服務水準目標的預覽畫面。JSON 區塊會匯總 SLO,並可複製以搭配 serviceLevelObjectives.create
方法使用。如果變更任何 SLO 值,JSON 預覽畫面會自動更新。
下圖顯示預設名稱的欄位:
確認顯示名稱無誤後,按一下「建立服務水準目標」。
後續步驟
建立 SLO 後,您可以執行下列操作:
在 Cloud Monitoring 中建立可顯示服務等級目標圖表的自訂資訊主頁,查看一組服務的所有服務等級目標狀態。詳情請參閱「建立自訂資訊主頁」和「在資訊主頁上顯示 SLO」。