透過指令列建立深度學習 VM 執行個體

本主題說明如何透過指令列建立新的深度學習 VM 映像檔執行個體。您可以將 gcloud 指令列工具與您偏好的 SSH 應用程式或 Cloud Shell 搭配使用。

事前準備

如要使用 Google Cloud CLI 建立新的深度學習 VM 執行個體,您必須先安裝並初始化 Google Cloud CLI

  1. 按照「安裝 Google Cloud CLI」一文中的指示下載並安裝 Google Cloud CLI。
  2. 按照初始化 Cloud SDK 一文中的指示初始化 SDK。

如要在 Cloud Shell 中使用 gcloud,請先按照啟動 Cloud Shell 一文中的指示啟用 Cloud Shell。

接著,選擇要使用的特定深度學習 VM 映像檔。請根據您偏好的架構和處理器類型進行選擇。如要進一步瞭解可用的映像檔,請參閱選擇映像檔一文。

建立不含 GPU 的執行個體

如要佈建含有 CPU 但不含 GPU 的深度學習 VM 執行個體,請使用下列指令:

export IMAGE_FAMILY="tf-ent-latest-cpu"
export ZONE="us-west1-b"
export INSTANCE_NAME="my-instance"

gcloud compute instances create $INSTANCE_NAME \
  --zone=$ZONE \
  --image-family=$IMAGE_FAMILY \
  --image-project=deeplearning-platform-release

選項:

  • --image-family 必須是其中一種 CPU 專屬的映像檔類型。詳情請參閱「選擇映像檔」一文。

  • --image-project 必須為 deeplearning-platform-release

建立包含一或多個 GPU 的執行個體

Compute Engine 提供在虛擬機器執行個體中加入 GPU 的選項。GPU 可加快許多複雜資料和機器學習工作的處理速度。如要進一步瞭解 GPU,請參閱 Compute Engine 上的 GPU 一文。

如要佈建包含一或多個 GPU 的深度學習 VM 執行個體,請使用下列指令:

export IMAGE_FAMILY="tf-ent-latest-gpu"
export ZONE="us-west1-b"
export INSTANCE_NAME="my-instance"

gcloud compute instances create $INSTANCE_NAME \
  --zone=$ZONE \
  --image-family=$IMAGE_FAMILY \
  --image-project=deeplearning-platform-release \
  --maintenance-policy=TERMINATE \
  --accelerator="type=nvidia-tesla-v100,count=1" \
  --metadata="install-nvidia-driver=True"

選項:

  • --image-family 必須是其中一種 GPU 專屬的映像檔類型。詳情請參閱「選擇映像檔」。

  • --image-project 必須為 deeplearning-platform-release

  • --maintenance-policy 必須為 TERMINATE。詳情請參閱「GPU 限制」一節。

  • --accelerator 是用來指定要使用的 GPU 類型,格式必須為 --accelerator="type=TYPE,count=COUNT"。支援的 TYPE 值如下:

    • nvidia-tesla-v100 (count=18)
    • nvidia-tesla-p100 (count=124)
    • nvidia-tesla-p4 (count=124)

    某些地區僅支援部分 GPU 類型。詳情請參閱 Compute Engine 上的 GPU 一文。

  • --metadata 是用來指定系統應代表您安裝 NVIDIA 驅動程式,值為 install-nvidia-driver=True。如有指定,Compute Engine 會在第一次啟動時載入最新的穩定版驅動程式,並執行必要的步驟 (包括最後一次重新啟動以啟用驅動程式)。

如果您選擇安裝 NVIDIA 驅動程式,安裝作業需要 3 到 5 分鐘才能完成。

VM 可能需要 5 分鐘才能佈建完成。在這段期間,您無法透過 SSH 連線到您的機器。安裝作業完成後,為了確保驅動程式安裝成功,您可以透過 SSH 連線並執行 nvidia-smi

如果您已設定映像檔,可以儲存映像檔快照,以便啟動衍生性執行個體,而不必等候安裝驅動程式。

建立先占執行個體

您可以建立先占深度學習 VM 執行個體。先占執行個體的建立和執行價格都遠低於一般執行個體。不過,如果 Compute Engine 需要存取其他工作所需的相關資源,可能會終止 (先占) 這類執行個體。先占執行個體一律會在 24 小時後終止。如要進一步瞭解先占執行個體,請參閱先占 VM 執行個體一文。

如何建立先占深度學習 VM 執行個體:

  • 按照上述操作說明建立新的執行個體,並在 gcloud compute instances create 指令後方加上以下內容:

      --preemptible

後續步驟

如要瞭解如何透過 Google Cloud 主控台或指令列連線至新的深度學習 VM 執行個體,請參閱「連線至執行個體」一文。執行個體名稱是您指定的「部署作業名稱」,後面加上 -vm