リクエスト数がリクエストの処理に割り当てられた容量を超えると、エラーコード 429
が返されます。次の表に、各タイプの割り当てフレームワークによって生成されるエラー メッセージを示します。
割り当てフレームワーク | メッセージ |
---|---|
従量課金制 | Resource exhausted, please try again later. |
プロビジョニングされたスループット | Too many requests. Exceeded the Provisioned Throughput. |
プロビジョニングされたスループットのサブスクリプションを使用すると、特定の生成 AI モデルのために一定量のスループットを予約できます。プロビジョニングされたスループットのサブスクリプションがなく、アプリケーションでリソースを使用できない場合、エラーコード 429
が返されます。予約済みの容量がない状況でも、再度リクエストを試すことはできます。ただし、この場合のリクエストは、サービスレベル契約(SLA)に記載されているエラー率にカウントされません。
プロビジョニングされたスループットを購入したプロジェクトの場合、Vertex AI はプロジェクトのスループットを測定し、プロジェクトの実際の使用量に対して購入したスループット量を予約します。購入したスループット量を使い切っていない場合、通常なら 429
として返されるエラーが 5XX
として返され、SLA に記載されているエラー率の一部としてカウントされます。購入したスループット量を超えて使用している場合、追加のリクエストは従量課金制で処理されます。
従量課金制
従量課金制の割り当てフレームワークでは、429
エラーを解決するために次のオプションがあります。
- 切り捨て型指数バックオフを使用して再試行方法を実装する。
- モデルで割り当てを使用している場合は、割り当て増加リクエスト(QIR)を送信できます。モデルで動的共有割り当てを使用している場合は、トラフィックを平滑化し、急増を抑えることが役立ちます。詳細については、動的共有割り当て(DSQ)をご覧ください。
- より一貫したサービスレベルを実現するために、プロビジョンド スループットに登録する。詳細については、プロビジョンド スループットをご覧ください。
プロビジョニングされたスループット
プロビジョニングされたスループットによって生成された 429 エラーを修正するには、次の操作を行います。
- 予測リクエストでヘッダーを設定しないデフォルトの動作の例を使用します。超過分はオンデマンドで処理され、従量課金制で請求されます。
- プロビジョニング スループットのサブスクリプションの GSU 数を増やします。
次のステップ
- 動的共有割り当ての詳細を確認する。動的共有割り当てをご覧ください。
- プロビジョニングされたスループットの詳細については、プロビジョニングされたスループットをご覧ください。
- Vertex AI の割り当てと上限の詳細について、Vertex AI の割り当てと上限を確認する。
- Google Cloud の割り当てと上限の詳細については、割り当ての値とシステムの上限についてをご覧ください。
- API エラーの詳細については、API エラーをご覧ください。