Serverless for Apache Spark – Übersicht

Mit Serverless for Apache Spark können Sie Spark-Arbeitslasten ausführen, ohne dass Sie einen eigenen Dataproc-Cluster bereitstellen und verwalten müssen. Es gibt zwei Möglichkeiten, Serverless for Apache Spark-Arbeitslasten auszuführen:

Batcharbeitslasten

Senden Sie einen Batch-Arbeitslast an den Serverless for Apache Spark-Dienst mit derGoogle Cloud -Konsole, der Google Cloud CLI oder der Dataproc API. Der Dienst führt die Arbeitslast auf einer verwalteten Computing-Infrastruktur aus und skaliert die Ressourcen automatisch nach Bedarf. Gebühren für Serverless for Apache Spark fallen nur für die Zeit an, in der die Arbeitslast ausgeführt wird.

Weitere Informationen

Interaktive Sitzungen

Sie können Code in Jupyter-Notebooks schreiben und ausführen, während einer interaktiven Serverless for Apache Spark-Sitzung. Sie können eine Notebook-Sitzung auf folgende Arten erstellen:

  • PySpark-Code in BigQuery Studio-Notebooks ausführen Mit dem BigQuery-Python-Notebook können Sie eine Spark-Connect-basierte interaktive Serverless for Apache Spark-Sitzung erstellen. Jedem BigQuery-Notebook kann nur eine aktive Serverless for Apache Spark-Sitzung zugeordnet sein.

  • Dataproc JupyterLab-Plug-in verwenden, um mehrere Jupyter-Notebook-Sitzungen aus Vorlagen zu erstellen, die Sie erstellen und verwalten. Wenn Sie das Plug-in auf einem lokalen Computer oder einer Compute Engine-VM installieren, werden auf der JupyterLab-Startseite verschiedene Karten angezeigt, die unterschiedlichen Spark-Kernelkonfigurationen entsprechen. Klicken Sie auf eine Karte, um eine Serverless for Apache Spark-Notebook-Sitzung zu erstellen. Beginnen Sie dann mit dem Schreiben und Testen Ihres Codes im Notebook.

    Mit dem Dataproc JupyterLab-Plug-in können Sie auch die JupyterLab-Launcher-Seite verwenden, um die folgenden Aktionen auszuführen:

    • Dataproc in Compute Engine-Cluster erstellen.
    • Jobs an Dataproc in Compute Engine-Cluster senden
    • Google Cloud - und Spark-Logs ansehen.

Serverless für Apache Spark im Vergleich zu Dataproc in Compute Engine

Wenn Sie Infrastruktur bereitstellen und verwalten und dann Arbeitslasten in Spark und anderen Open-Source-Verarbeitungs-Frameworks ausführen möchten, verwenden Sie Dataproc in Compute Engine. In der folgenden Tabelle sind die wichtigsten Unterschiede zwischen Dataproc on Compute Engine und Serverless for Apache Spark aufgeführt.

Leistungsvermögen Serverless for Apache Spark Dataproc in Compute Engine
Verarbeitungsframeworks Batcharbeitslasten: Spark 3.5 und frühere Versionen
Interaktive Sitzungen: Spark 3.5 und frühere Versionen
Spark 3.5 und frühere Versionen: Andere Open-Source-Frameworks wie Hive, Flink, Trino und Kafka
Serverlos Ja Nein
Startzeit 60 Sekunden 90er
Infrastruktursteuerung Nein Ja
Ressourcenverwaltung Spark-basiert YARN-basiert
GPU-Unterstützung Ja Ja
Interaktive Sitzungen Ja Nein
Benutzerdefinierte Container Ja Nein
VM-Zugriff (z. B. SSH) Nein Ja
Java-Versionen Java 17, 11 Unterstützung für frühere Versionen

Sicherheitscompliance

Serverless für Apache Spark entspricht allen Anforderungen an den Datenspeicherort, CMEK, VPC-SC und anderen Sicherheitsanforderungen, die Dataproc erfüllt.

Funktionen von Batcharbeitslasten

Sie können die folgenden Serverless for Apache Spark-Batcharbeitslasttypen ausführen:

  • PySpark
  • Spark SQL
  • Spark R
  • Spark (Java oder Scala)

Sie können Spark-Attribute angeben, wenn Sie eine Serverless for Apache Spark-Batcharbeitslast senden.