使用 GKE Gen AI 功能開始進行 AI 模型推論！

本頁面由 Cloud Translation API 翻譯而成。

Home
說明文件
AI/ML orchestration on GKE

透過集合功能整理內容你可以依據偏好儲存及分類內容。

「GKE 中的 AI/機器學習自動化調度管理」說明文件

運用 Google Kubernetes Engine (GKE) 平台的自動化調度管理功能，執行最佳化的 AI/機器學習工作負載。您可以透過 Google Kubernetes Engine (GKE)，導入可用於正式環境的穩固 AI/機器學習平台，同時享有代管 Kubernetes 的所有優點和以下功能：

基礎架構自動化調度管理功能支援 GPU 和 TPU，可大規模處理訓練及提供模型的工作負載。
能與分散式運算和資料處理架構彈性整合。
以同一基礎架構支援多個團隊，讓資源獲得最大運用

本頁面將概略說明 GKE 的 AI/機器學習功能，以及如何開始在 GKE 上使用 GPU、TPU 和 Hugging Face TGI、vLLM 和 JetStream 等架構，執行最佳化的 AI/機器學習工作負載。

免費試用

使用價值 $300 美元的免費抵免額開始概念驗證

使用 Gemini 2.0 Flash Thinking
每月免費使用熱門產品 (包括 AI API 和 BigQuery)
不會自動收費，也不會要求您一定要購買特定方案

查看免費產品優惠

繼續探索 20 項以上的一律免費產品

使用超過 20 項實用的免費產品，滿足常見的使用需求，包括 AI API、VM 和資料倉儲等。

說明文件資源

歡迎查看快速入門導覽課程、指南和重要參考資料。如有常見問題，也能取得協助。

info

使用 GKE 生成式 AI 功能提供開放式模型

新功能！

關於 GKE 上的模型推論
新功能！

使用 GKE 推論快速入門食譜執行最佳做法推論
新功能！

在 GKE 上提供 Deepseek-R1 671B 或 Llama 3.1 405B 等 LLM
教學課程

透過 vLLM 使用 GKE 中的 GPU 提供 Gemma 服務
教學課程

透過 vLLM 在 GKE 上使用 TPU Trillium 提供 LLM
教學課程

查看更多 GKE 模型推論教學課程

info

大規模調度管理 TPU 和 GPU

新功能！

快速入門：在 GKE 上部署 GPU 加速的 Ray，用於 AI 工作負載
新功能！

針對混合 AI/機器學習訓練和推論工作負載，最佳化 GKE 資源使用率
影片

機器學習的 Cloud TPU 簡介。
影片

使用 GKE 在 Cloud TPU 上建構大規模機器學習
影片

在 TPU 上使用 KubeRay 提供大型語言模型
網誌

在 Kubernetes 上使用 JAX 和 NVIDIA GPU 進行機器學習

info

成本最佳化和工作排程

新功能！

GKE 上批次處理平台的參考架構
最佳做法

使用彈性啟動佈建模式，提升 GPU 取得率
網誌

透過 GKE 支援的本機 SSD 提供高效能 AI/機器學習儲存空間
網誌

搭配使用 Weights & Biases 平台與 Google Kubernetes Engine，簡化機器學習運作流程
最佳做法

在 GKE 上執行批次工作負載的最佳做法
最佳做法

在 GKE 上執行最具成本效益的 Kubernetes 應用程式
最佳做法

將 GKE 中 Stable Diffusion 的啟動時間縮短 4 倍

相關資源

訓練與教學課程

用途

程式碼範例

探索 Google Cloud Skills Boost 提供的自修訓練課程、用途、參考架構和程式碼範例，瞭解如何使用及連結 Google Cloud 服務。

訓練

訓練與教學課程

透過 Optimum TPU 在 GKE 上使用 TPU 提供開放原始碼模型

瞭解如何在 GKE 上使用 Tensor Processing Unit (TPU) 部署 LLM，並使用 Hugging Face 的 Optimum TPU 服務架構。

教學課程 AI/機器學習推論 TPU

瞭解詳情

訓練

訓練與教學課程

在 GKE 中建立並使用由 Parallelstore 執行個體支援的磁碟區

瞭解如何建立由全代管 Parallelstore 執行個體支援的儲存空間，並以磁碟區的形式存取這些資源。CSI 驅動程式經過最佳化調整，適合處理涉及較小檔案大小和隨機讀取的 AI/機器學習訓練工作負載。

教學課程 AI/機器學習資料載入

瞭解詳情

訓練

訓練與教學課程

使用 Hyperdisk ML 加速 AI/ML 資料載入

瞭解如何使用 Hyperdisk ML，簡化並加速在 GKE 上載入 AI/機器學習模型權重。

教學課程 AI/機器學習資料載入

瞭解詳情

訓練

訓練與教學課程

透過 JetStream 和 PyTorch 在 GKE 上使用 TPU 提供 LLM

瞭解如何透過 PyTorch 在 GKE 上使用 JetStream 和 Tensor Processing Unit (TPU) 提供 LLM。

教學課程 AI/機器學習推論 TPU

瞭解詳情

訓練

訓練與教學課程

在 GKE 上使用 GPU 最佳化 LLM 推論的最佳做法

瞭解如何使用 vLLM 和文字產生推論 (TGI) 服務架構，在 GKE 上使用 GPU 最佳化 LLM 推論效能。

教學課程 AI/機器學習推論 GPU

瞭解詳情

訓練

訓練與教學課程

在 GKE 上使用 NVIDIA GPU Operator 管理 GPU 堆疊

瞭解 NVIDIA GPU 運算子的使用時機，以及如何在 GKE 上啟用 NVIDIA GPU 運算子。

教學課程 GPU

瞭解詳情

訓練

訓練與教學課程

為 TPU 上的 LLM 工作負載設定自動調度資源功能

瞭解如何使用 GKE 水平 Pod 自動配置器 (HPA) 部署 Gemma LLM，並透過單一主機 JetStream 部署。

教學課程 TPU

瞭解詳情

訓練

訓練與教學課程

在 GKE 上使用多個 GPU 微調 Gemma 開放式模型

瞭解如何使用 Hugging Face Transformers 程式庫，在 GKE 上透過 GPU 微調 Gemma 大型語言模型。

教學課程 AI/機器學習推論 GPU

瞭解詳情

訓練

訓練與教學課程

在搭載 TPU 的 GKE 上部署使用 Stable Diffusion 模型的 Ray Serve 應用程式

瞭解如何使用 TPU、Ray Serve 和 Ray Operator 外掛程式，在 GKE 上部署及提供穩定的擴散模型。

教學課程 AI/機器學習推論 Ray TPU

瞭解詳情

訓練

訓練與教學課程

使用 GKE 為 GPU 上的 LLM 工作負載設定自動調度資源

瞭解如何使用 GKE 水平 Pod 自動配置器 (HPA) 部署 Gemma LLM，並搭配 Hugging Face Text Generation Interface (TGI) 服務架構，設定自動調整資源配置基礎架構。

教學課程 GPU

瞭解詳情

訓練

訓練與教學課程

在 A3 Mega 虛擬機器上使用 Megatron-LM 訓練 Llama2

瞭解如何在 A3 Mega 上執行容器型 Megatron-LM PyTorch 工作負載。

教學課程 AI/機器學習訓練 TPU

瞭解詳情

訓練

訓練與教學課程

在 Autopilot 中部署 GPU 工作負載

瞭解如何在 GKE Autopilot 工作負載中要求硬體加速器 (GPU) 資源。

教學課程 GPU

瞭解詳情

訓練

訓練與教學課程

在 GKE 中提供具備多個 GPU 的 LLM

瞭解如何透過 GKE 使用多個 NVIDIA L4 GPU 提供 Llama 2 70B 或 Falcon 40B。

教學課程 AI/機器學習推論 GPU

瞭解詳情

訓練

訓練與教學課程

開始在 GKE 上使用 Ray

瞭解如何在 Ray 叢集中執行工作負載，輕鬆開始在 GKE 上使用 Ray。

教學課程 Ray

瞭解詳情

訓練

訓練與教學課程

透過 Ray 在 L4 GPU 提供大型語言模型

瞭解如何在 GKE 中使用 Ray 架構，提供 Falcon 7b、Llama2 7b、Falcon 40b 或 Llama2 70b 服務。

教學課程 AI/機器學習推論 Ray GPU

瞭解詳情

訓練

訓練與教學課程

使用 JobSet 和 Kueue 自動化調度管理 TPU Multislice 工作負載

瞭解如何使用 JobSet 和 Kueue，在 GKE 上的多個 TPU 切片上自動化調度管理 Jax 工作負載。

教學課程 TPU

瞭解詳情

訓練

訓練與教學課程

使用 NVIDIA Data Center GPU Manager (DCGM) 監控 GKE 上的 GPU 工作負載

瞭解如何使用 NVIDIA Data Center GPU Manager (DCGM) 觀察 GKE 上的 GPU 工作負載。

教學課程 AI/機器學習可觀察性 GPU

瞭解詳情

訓練

訓練與教學課程

快速入門：在 GKE Standard 叢集中使用 GPU 訓練模型

本快速入門導覽課程說明如何在 GKE 中部署使用 GPU 的訓練模型，並將預測結果儲存在 Cloud Storage 中。

教學課程 AI/機器學習訓練 GPU

瞭解詳情

訓練

訓練與教學課程

在 GKE 上執行大規模機器學習作業

這部影片說明 GKE 如何解決大規模訓練大型 AI 模型時常見的挑戰，以及在 GKE 訓練及提供大型機器學習模型的最佳做法。

影片 AI/機器學習訓練 AI/機器學習推論

瞭解詳情

訓練

訓練與教學課程

TensorFlow 搭配可加快 GPU 的 GKE Autopilot

這篇網誌文章將逐步說明如何建立、執行及拆解支援 TensorFlow 的 Jupiter 筆記本。

部落格 AI/機器學習訓練 AI/機器學習推論 GPU

瞭解詳情

訓練

訓練與教學課程

在 GKE 上實作工作佇列系統，並在命名空間之間共用配額

本教學課程會使用 Kueue，說明如何實作工作排序系統，以及在 GKE 上設定工作負載資源和配額共用功能。

教學課程 AI/機器學習批次處理

瞭解詳情

訓練

訓練與教學課程

使用 GKE 和 Cloud Storage 建構 RAG 聊天機器人

本教學課程說明如何將大型語言模型應用程式 (以擷取增強式生成為基礎) 與上傳至 Cloud Storage 值區的 PDF 檔案整合。

教學課程 AI/機器學習資料載入

瞭解詳情

訓練

訓練與教學課程

使用 BigQuery、Cloud Run 和 Gemma 分析 GKE 上的資料

本教學課程將說明如何在 GKE 上分析大型資料集，方法是利用 BigQuery 儲存及處理資料、Cloud Run 處理要求，以及 Gemma LLM 進行資料分析和預測。

教學課程 AI/機器學習資料載入

瞭解詳情

用途

使用 GKE 和 Ray 進行分散式資料預先處理：為企業進行擴充

瞭解如何運用 GKE 和 Ray，為機器學習有效地預先處理大型資料集。

機器學習運作訓練 Ray

瞭解詳情

用途

在 GKE 上進行 AI/機器學習推論時，資料載入的最佳做法

瞭解如何加快 Google Kubernetes Engine 上機器學習應用程式資料的載入時間。

推論 Hyperdisk ML Cloud Storage FUSE

瞭解詳情

用途

節省 GPU 費用：為 GKE 推論工作負載進行更聰明的自動調度

瞭解如何微調 GKE 的 Horizontal Pod Autoscaler，以便充分提高效能，進而降低 GPU 推論成本。

推論 GPU HPA

瞭解詳情

用途

透過 GKE 中的 NVIDIA NIM 微服務，有效率地提供最佳化 AI 模型

瞭解如何輕鬆在 GKE 上部署先進的 NVIDIA NIM 微服務，加速 AI 工作負載。

AI NVIDIA NIM

瞭解詳情

用途

在 GKE 上使用新的 Ray Operator 加快 Ray 在實際工作環境的執行速度

瞭解 GKE 上的 Ray Operator 如何簡化 AI/ML 正式部署作業，提升效能和可擴充性。

AI TPU Ray

瞭解詳情

用途

在 GKE 上為 GPU 提供大型語言模型，以便提高傳送吞吐量 - 實用指南

瞭解如何在 GKE 上，針對 GPU 的大型語言模型 (LLM) 服務，盡可能提高傳送量，包括基礎架構決策和模型伺服器最佳化。

LLM GPU NVIDIA

瞭解詳情

用途

簡化搜尋引擎：使用 GKE 和 Vertex AI Agent Builder 的低程式碼方法

如何使用 Google Cloud 建構搜尋引擎，並運用 Vertex AI Agent Builder、Vertex AI Search 和 GKE。

搜尋 Agent Vertex AI

瞭解詳情

用途

LiveX AI 使用 GKE 和 NVIDIA AI 訓練及提供的 AI 代理，降低客戶服務成本

LiveX AI 如何使用 GKE 建構 AI 代理，提高客戶滿意度並降低成本。

GenAI NVIDIA GPU

瞭解詳情

用途

使用 GKE 建構具備 RAG 功能的生成式 AI 應用程式基礎架構

使用 GKE、Cloud SQL、Ray、Hugging Face 和 LangChain 執行生成式 AI 應用程式 (搭配檢索增強生成 (RAG)) 的參考架構。

GenAI RAG Ray

瞭解詳情

用途

創新專利搜尋：IPRally 如何運用 GKE 和 Ray 的 AI 技術

IPRally 如何使用 GKE 和 Ray 建構可擴充且高效的機器學習平台，加快專利搜尋速度並提高準確度。

AI Ray GPU

瞭解詳情

用途

深入瞭解 Google Cloud 上的 Gemma 效能

在 Cloud GPU 和 Cloud TPU 上使用 Gemma，提高 GKE 推論和訓練效率。

AI Gemma 效能

瞭解詳情

用途

GKE 上的 Gemma 深入介紹：提供開放生成式 AI 模型的全新創新功能

使用頂尖的 Gemma 開放式模型，建構可攜式且可自訂的 AI 應用程式，並在 GKE 上部署。

AI Gemma 效能

瞭解詳情

用途

使用 Ray 和 Kueue 為 AI/機器學習提供進階排程

使用 KubeRay 和 Kueue 在 GKE 中自動化調度管理 Ray 應用程式。

Kueue Ray KubeRay

瞭解詳情

用途

如何在 Google Kubernetes Engine 上保護 Ray

在 GKE 上使用 Ray 訓練 AI/機器學習工作負載時，套用安全深入分析和強化技術。

AI Ray 安全性

瞭解詳情

用途

為 Google Cloud 中的 AI 和機器學習工作負載設計儲存空間

為 Google Cloud 上的 AI 和 ML 工作負載，選取最佳儲存空間選項組合。

AI 機器學習儲存空間

瞭解詳情

用途

自動安裝驅動程式，簡化在 GKE 中使用 NVIDIA GPU 的程序

在 GKE 中自動安裝 Nvidia GPU 驅動程式。

GPU NVIDIA 安裝

瞭解詳情

用途

在 GKEE 中使用 NVIDIA NeMo 架構，加速導入生成式 AI

使用 GKE 和 NVIDIA NeMo 架構訓練生成式 AI 模型。

GenAI NVIDIA NeMo

瞭解詳情

用途

為何要使用 GKE 執行 Ray AI 工作負載？

使用 GKE 搭配 Ray 工作負載，可提高擴充性、成本效益、容錯性、隔離性和可移植性。

AI Ray Scale

瞭解詳情

用途

在全代管的 GKE 中執行 AI，現在提供新的運算選項、價格和資源預留功能

透過 GKE Autopilot，為 AI/機器學習工作負載提供更佳的 GPU 支援、效能和更低的價格。

GPU 自動駕駛效能

瞭解詳情

用途

SEEN 如何使用 GKE 將輸出內容擴大 89 倍，並將 GPU 成本降低 66%

新創公司使用 GKE 擴大個人化影片輸出規模。

GPU Scale Containers

瞭解詳情

用途

Spotify 如何運用 Ray 和 GKE 推動機器學習創新

Ray 如何改變 Spotify 的機器學習開發作業。

機器學習 Ray 容器

瞭解詳情

用途

Ordaōs Bio 如何在 GKE 上運用生成式 AI

Ordaōs Bio 是生物醫學研究和發現領域的領先 AI 加速器之一，致力於尋找癌症和慢性發炎性疾病的新免疫療法解決方案。

效能 TPU 成本最佳化

瞭解詳情

用途

這間快速成長的新創公司如何透過 GKE 運用機器學習技術

矽谷新創公司 Moloco 如何運用 GKE 和 TensorFlow 企業版的強大功能，大幅強化機器學習 (ML) 基礎架構。

機器學習資源調度成本最佳化

瞭解詳情

程式碼範例

Google Kubernetes Engine (GKE) 範例

查看官方 GKE 產品教學課程中使用的範例應用程式。

開啟 GitHub

程式碼範例

GKE AI Labs 範例

查看實驗範例，瞭解如何運用 GKE 加快 AI/機器學習計畫。

開啟 GitHub

使用 GKE Gen AI 功能開始進行 AI 模型推論！

「GKE 中的 AI/機器學習自動化調度管理」說明文件

使用價值 $300 美元的免費抵免額開始概念驗證

繼續探索 20 項以上的一律免費產品

使用 GKE 生成式 AI 功能提供開放式模型

大規模調度管理 TPU 和 GPU

成本最佳化和工作排程

相關影片