建立叢集時,系統會自動在叢集上安裝標準的 Apache Hadoop 生態系統元件 (請參閱 Dataproc 叢集映像檔版本清單)。您可以在建立叢集時在叢集上安裝稱為「選用元件」的其他元件。將選用元件新增至叢集,類似於透過使用初始化動作新增元件,但具有下列優點:
- 叢集啟動時間更快
- 經過測試,相容於特定的 Dataproc 版本
- 使用叢集參數,而不使用初始化動作指令碼
可用的選用元件
選用元件 | Google Cloud CLI 指令和 API 請求中的 COMPONENT_NAME |
映像檔版本 | 發佈階段 |
---|---|---|---|
Delta Lake | DELTA | 2.2.46 以上版本 | GA |
Docker | DOCKER | 1.5 以上版本 | GA |
Flink | FLINK | 1.5 以上版本 | GA |
HBase | HBASE | 1.5 以上版本 (不適用於 2.1 以上版本) |
Beta 版 |
Hive WebHCat | HIVE_WEBHCAT | 1.3 含以上 | GA |
Hudi | Hudi | 1.5 以上版本 | GA |
Iceberg | Iceberg | 2.2 以上版本 | GA |
Jupyter 筆記本 | JUPYTER | 1.3 含以上 | GA |
Presto | PRESTO | 1.3 以上版本 (不適用於 2.1 以上版本) |
GA |
Ranger | RANGER | 1.3 含以上 | GA |
Solr | SOLR | 1.3 含以上 | GA |
Trino | TRINO | 2.1 以上版本 | GA |
Zeppelin Notebook | ZEPPELIN | 1.3 含以上 | GA |
Zookeeper | ZOOKEEPER | 1.0 以上版本 | GA |
新增選用元件
控制台
- 在 Google Cloud 控制台中,前往 Dataproc 的「Create a cluster」頁面。
選取「設定叢集」面板。
- 在「元件」部分的「選用元件」下方,選取一或多個要安裝在叢集上的元件。
Google Cloud CLI
如要建立 Dataproc 叢集,並在叢集中安裝一或多個選用元件,請使用 gcloud beta dataproc clusters create cluster-name
指令搭配 --optional-components
標記。
gcloud dataproc clusters create cluster-name \ --optional-components=COMPONENT-NAME(s) \ ... other flags