本主題說明如何透過指令列建立新的深度學習 VM 映像檔執行個體。您可以將 gcloud
指令列工具與您偏好的 SSH 應用程式或 Cloud Shell 搭配使用。
事前準備
如要使用 Google Cloud CLI 建立新的深度學習 VM 執行個體,您必須先安裝並初始化 Google Cloud CLI:
- 按照「安裝 Google Cloud CLI」一文中的指示下載並安裝 Google Cloud CLI。
- 按照初始化 Cloud SDK 一文中的指示初始化 SDK。
如要在 Cloud Shell 中使用 gcloud
,請先按照啟動 Cloud Shell 一文中的指示啟用 Cloud Shell。
接著,選擇要使用的特定深度學習 VM 映像檔。請根據您偏好的架構和處理器類型進行選擇。如要進一步瞭解可用的映像檔,請參閱選擇映像檔一文。
建立不含 GPU 的執行個體
如要佈建含有 CPU 但不含 GPU 的深度學習 VM 執行個體,請使用下列指令:
export IMAGE_FAMILY="tf-ent-latest-cpu"
export ZONE="us-west1-b"
export INSTANCE_NAME="my-instance"
gcloud compute instances create $INSTANCE_NAME \
--zone=$ZONE \
--image-family=$IMAGE_FAMILY \
--image-project=deeplearning-platform-release
選項:
--image-family
必須是其中一種 CPU 專屬的映像檔類型。詳情請參閱「選擇映像檔」一文。--image-project
必須為deeplearning-platform-release
。
建立包含一或多個 GPU 的執行個體
Compute Engine 提供在虛擬機器執行個體中加入 GPU 的選項。GPU 可加快許多複雜資料和機器學習工作的處理速度。如要進一步瞭解 GPU,請參閱 Compute Engine 上的 GPU 一文。
如要佈建包含一或多個 GPU 的深度學習 VM 執行個體,請使用下列指令:
export IMAGE_FAMILY="tf-ent-latest-gpu"
export ZONE="us-west1-b"
export INSTANCE_NAME="my-instance"
gcloud compute instances create $INSTANCE_NAME \
--zone=$ZONE \
--image-family=$IMAGE_FAMILY \
--image-project=deeplearning-platform-release \
--maintenance-policy=TERMINATE \
--accelerator="type=nvidia-tesla-v100,count=1" \
--metadata="install-nvidia-driver=True"
選項:
--image-family
必須是其中一種 GPU 專屬的映像檔類型。詳情請參閱「選擇映像檔」。--image-project
必須為deeplearning-platform-release
。--maintenance-policy
必須為TERMINATE
。詳情請參閱「GPU 限制」一節。--accelerator
是用來指定要使用的 GPU 類型,格式必須為--accelerator="type=TYPE,count=COUNT"
。支援的TYPE
值如下:nvidia-tesla-v100
(count=1
或8
)nvidia-tesla-p100
(count=1
、2
或4
)nvidia-tesla-p4
(count=1
、2
或4
)
某些地區僅支援部分 GPU 類型。詳情請參閱 Compute Engine 上的 GPU 一文。
--metadata
是用來指定系統應代表您安裝 NVIDIA 驅動程式,值為install-nvidia-driver=True
。如有指定,Compute Engine 會在第一次啟動時載入最新的穩定版驅動程式,並執行必要的步驟 (包括最後一次重新啟動以啟用驅動程式)。
如果您選擇安裝 NVIDIA 驅動程式,安裝作業需要 3 到 5 分鐘才能完成。
VM 可能需要 5 分鐘才能佈建完成。在這段期間,您無法透過 SSH 連線到您的機器。安裝作業完成後,為了確保驅動程式安裝成功,您可以透過 SSH 連線並執行 nvidia-smi
。
如果您已設定映像檔,可以儲存映像檔快照,以便啟動衍生性執行個體,而不必等候安裝驅動程式。
建立先占執行個體
您可以建立先占深度學習 VM 執行個體。先占執行個體的建立和執行價格都遠低於一般執行個體。不過,如果 Compute Engine 需要存取其他工作所需的相關資源,可能會終止 (先占) 這類執行個體。先占執行個體一律會在 24 小時後終止。如要進一步瞭解先占執行個體,請參閱先占 VM 執行個體一文。
如何建立先占深度學習 VM 執行個體:
按照上述操作說明建立新的執行個體,並在
gcloud compute instances create
指令後方加上以下內容:--preemptible
後續步驟
如要瞭解如何透過 Google Cloud 主控台或指令列連線至新的深度學習 VM 執行個體,請參閱「連線至執行個體」一文。執行個體名稱是您指定的「部署作業名稱」,後面加上 -vm
。