Dataproc 元件

建立叢集時,系統會自動在叢集上安裝標準的 Apache Hadoop 生態系統元件 (請參閱 Dataproc 叢集映像檔版本清單)。您可以在建立叢集時在叢集上安裝稱為「選用元件」的其他元件。將選用元件新增至叢集,類似於透過使用初始化動作新增元件,但具有下列優點:

  • 叢集啟動時間更快
  • 經過測試,相容於特定的 Dataproc 版本
  • 使用叢集參數,而不使用初始化動作指令碼

可用的選用元件

選用元件 Google Cloud CLI 指令和 API 請求中的 COMPONENT_NAME
映像檔版本 發佈階段
Delta Lake DELTA 2.2.46 以上版本 GA
Docker DOCKER 1.5 以上版本 GA
Flink FLINK 1.5 以上版本 GA
HBase HBASE 1.5 以上版本
(不適用於 2.1 以上版本)
Beta 版
Hive WebHCat HIVE_WEBHCAT 1.3 含以上 GA
Hudi Hudi 1.5 以上版本 GA
Iceberg Iceberg 2.2 以上版本 GA
Jupyter 筆記本 JUPYTER 1.3 含以上 GA
Presto PRESTO 1.3 以上版本
(不適用於 2.1 以上版本)
GA
Ranger RANGER 1.3 含以上 GA
Solr SOLR 1.3 含以上 GA
Trino TRINO 2.1 以上版本 GA
Zeppelin Notebook ZEPPELIN 1.3 含以上 GA
Zookeeper ZOOKEEPER 1.0 以上版本 GA

新增選用元件

控制台

  1. 在 Google Cloud 控制台中,前往 Dataproc 的「Create a cluster」頁面。

    前往「建立叢集」

    選取「設定叢集」面板。

  2. 在「元件」部分的「選用元件」下方,選取一或多個要安裝在叢集上的元件。

Google Cloud CLI

如要建立 Dataproc 叢集,並在叢集中安裝一或多個選用元件,請使用 gcloud beta dataproc clusters create cluster-name 指令搭配 --optional-components 標記。

gcloud dataproc clusters create cluster-name \
  --optional-components=COMPONENT-NAME(s) \
  ... other flags

REST API

您可以透過 Dataproc API,使用 SoftwareConfig.Component 做為 clusters.create 要求的一部分,指定選用元件。