Dataflow のウェブベースのモニタリング インターフェースには、プロジェクト レベルで Dataflow ジョブをモニタリングするダッシュボードが含まれています。グラフには、1 つのプロジェクト内のすべてのジョブのデータが表示されます。
ダッシュボードは次のタスクに役立ちます。
- 割り当てエラーの原因を検出して特定する。
- ジョブ内の異常な水平自動スケーリングを検出する。
- 遅いまたは停止しているストリーミング ジョブを特定する。
ダッシュボードは、Cloud Monitoring を使用して Dataflow ジョブの指標にアクセスします。グラフに表示される情報をカスタマイズするには、Metrics Explorer を使用します。
機能
ダッシュボードには次の機能があります。
- 正規表現を使用して、ダッシュボードに表示するジョブを選択する。
- 個々のグラフからジョブの詳細ページにアクセスする。
- ダッシュボードのウィジェットとグラフをカスタマイズする。
必要なロール
グラフデータを表示するために必要な権限を取得するには、モニタリング閲覧者(roles/monitoring.viewer
)IAM ロールを付与するよう管理者に依頼してください。ロールの付与については、プロジェクト、フォルダ、組織へのアクセス権の管理をご覧ください。
この事前定義ロールには、グラフデータを表示するために必要な monitoring.timeSeries.list
権限が含まれています。
カスタムロールや他の事前定義ロールを使用して、この権限を取得することもできます。
ダッシュボードにアクセスする
ダッシュボードにアクセスする手順は次のとおりです。
- Google Cloud コンソールにログインします。
- Google Cloud プロジェクトを選択します。
- ナビゲーション メニューを開きます。
- [分析] で、[Dataflow] をクリックします。
ナビゲーション メニューで、[モニタリング] をクリックします。
ダッシュボードの指標
デフォルトでは、ダッシュボードに次の時系列グラフが表示されます。表示される指標の詳細については、ジョブの指標をご覧ください。
次のグラフは、バッチジョブとストリーミング ジョブに適用されます。
- 実行中のジョブ。プロジェクトで実行されているアクティブなジョブの数を示します。このグラフは、プロジェクト内の Dataflow アクティビティの全体的な推移を示しています。
- ジョブあたりのワーカー数(上位 25 件)。最も並列化された 25 個のジョブの現在のワーカー数を示します。このグラフは、リソースの割り当てを把握し、ワークロードが多いジョブを特定する際に役立ちます。ジョブに予期しないスケーリング動作があるかどうかも確認できます。
- vCPU の合計数。プロジェクト内のすべてのジョブで使用されている仮想 CPU(vCPU)の合計数を示します。vCPU の合計数は Compute Engine の割り当てに影響します。
- ジョブあたりの vCPU 数(上位 25 件)。vCPU リソースを最も多く消費している 25 個のジョブを示します。このグラフには、費用が高くなる可能性のあるジョブがハイライト表示されます。
- vCPU の合計数。プロジェクト全体で使用中の vCPU の数の合計数を示します。このグラフは、ジョブが使用する Compute Engine リソースの概要を表しています。
- 割り当て超過エラー。Dataflow の割り当てまたは Compute Engine の割り当てに達したインスタンスが報告されます。このグラフは、ジョブの障害やスケーリングの遅延の可能性を特定する際に役立ちます。
次のグラフは、ストリーミング ジョブに適用されます。
- システムの平均レイテンシ。システム レイテンシの平均値を示します。これは、ソースステージの通過時にデータに発生する一般的な遅延を反映しています。このグラフは、潜在的な入力ボトルネックを示す場合があります。このグラフを使用して、データがソースに届き、すべてのシンクに書き込まれるまでの間に異常な遅延が発生しているストリーミング ジョブを特定します。
- システムラグの長い上位 25 件のジョブ。システムラグが最も長い(データの処理中または処理待ちの時間が最も長い)25 個のストリーミング パイプラインを示します。このグラフは、リアルタイム処理のボトルネックの可能性を示す場合があります。
- 各ステージでデータのウォーターマーク ラグ(更新頻度)が最も大きい上位 25 件のジョブ。ウォーターマーク ラグが最も大きい 25 件のストリーミング ジョブを示します。ステージのウォーターマーク ラグは、ステージが受信した最新のイベント時間とウォーターマークの差です。このグラフは、ステージごとの粒度で潜在的なボトルネックを示すことができます。このグラフを使用して、処理速度の遅いストリーミング ジョブや、停止している可能性のあるストリーミング ジョブを見つけます。詳細については、遅いジョブや停止したジョブのトラブルシューティングをご覧ください。
- SECU 使用量が多い上位 25 個のジョブ。Streaming Engine コンピューティング単位数を最も多く消費している 25 個のストリーミング ジョブを示します。このグラフを使用して、リソースベースの課金を使用するストリーミング ジョブの費用と強度を測定します。
- ユーザー処理レイテンシが長い上位 25 件のジョブ(ステージごと)。処理ステージのユーザー定義コードの実行時間が最も長い 25 件のストリーミング ジョブを示します。このグラフを使用して、アプリケーション ロジックの潜在的なパフォーマンスのボトルネックを見つけます。
- バックログの最大バイト数(上位 25 件)。どのステージでも処理されていない待機中データの量が最も多い 25 個のストリーミング ジョブを示します。このグラフは、入力の過負荷や処理の遅延を示す可能性があります。
グラフの操作の詳細については、グラフデータの使い方をご覧ください。
ダッシュボードをカスタマイズする
ダッシュボードのコンテンツとグラフに表示される情報をカスタマイズできます。ダッシュボードを編集すると、カスタマイズされた新しいダッシュボードが作成されます。
ダッシュボードは、Cloud Monitoring を使用して Dataflow ジョブの指標にアクセスします。Cloud Monitoring ツールを使用してグラフをカスタマイズします。
- ダッシュボードを開き、[ダッシュボードをカスタマイズ] をクリックします。
- ダッシュボードを変更します。
- ダッシュボードに表示されるジョブをフィルタリングするには、カスタム ダッシュボードに一時的なフィルタを追加するとカスタム ダッシュボードに永続的なフィルタを追加するをご覧ください。
- ウィジェットを編集または削除するには、ダッシュボード ウィジェットを管理するをご覧ください。
- グラフの内容を編集するには、ダッシュボード上のグラフの指標を選択するをご覧ください。
- ダッシュボードにグラフを追加するには、カスタム ダッシュボードにグラフとテーブルを追加するをご覧ください。
- [保存] をクリックし、[カスタマイズされたダッシュボードを表示] をクリックします。
カスタマイズされたダッシュボードを作成してデフォルトのダッシュボードに戻るには、[ダッシュボード] メニューで [事前定義] を選択します。
カスタム指標グラフをダッシュボードに追加する例については、Dataflow モニタリング ダッシュボードをカスタマイズするをご覧ください。
トラブルシューティング
このセクションでは、一般的な問題のトラブルシューティングについて説明します。
データがない
ダッシュボードを開くと、1 つ以上のグラフに次のメッセージが表示されます。
No data is available for the selected time frame.
このメッセージは、グラフの対象期間にデータがない場合に表示されます。この問題を解決するには、期間を変更または拡大します。
表示期間を変更するには、グラフの [データを探索] をクリックし、期間セレクタを使用します。
削除したウィジェットを復元できない
ダッシュボードからウィジェットを削除すると、カスタマイズされたダッシュボードが作成されます。カスタマイズされたダッシュボードを作成してデフォルトのダッシュボードに戻るには、[ダッシュボード] メニューで [事前定義] を選択します。
グラフを表示できない
グラフデータを表示するには、monitoring.timeSeries.list
権限が必要です。詳細については、必要なロールをご覧ください。
次のステップ
- 個々のジョブ指標の詳細を確認する。
- Cloud Monitoring で指標を調べる。
- 遅いジョブや停止したジョブのトラブルシューティング