Diese Seite wurde von der Cloud Translation API übersetzt.

Serverless for Apache Spark – Übersicht

Mit Serverless for Apache Spark können Sie Spark-Arbeitslasten ausführen, ohne dass Sie einen eigenen Dataproc-Cluster bereitstellen und verwalten müssen. Es gibt zwei Möglichkeiten, Serverless for Apache Spark-Arbeitslasten auszuführen:

Batch-Arbeitslasten
Interaktive Sitzungen

Batcharbeitslasten

Senden Sie einen Batch-Arbeitslast an den Serverless for Apache Spark-Dienst mit derGoogle Cloud -Konsole, der Google Cloud CLI oder der Dataproc API. Der Dienst führt die Arbeitslast auf einer verwalteten Computing-Infrastruktur aus und skaliert die Ressourcen automatisch nach Bedarf. Gebühren für Serverless for Apache Spark fallen nur für die Zeit an, in der die Arbeitslast ausgeführt wird.

Weitere Informationen

Interaktive Sitzungen

Sie können Code in Jupyter-Notebooks schreiben und ausführen, während einer interaktiven Serverless for Apache Spark-Sitzung. Sie können eine Notebook-Sitzung auf folgende Arten erstellen:

PySpark-Code in BigQuery Studio-Notebooks ausführen Mit dem BigQuery-Python-Notebook können Sie eine Spark-Connect-basierte interaktive Serverless for Apache Spark-Sitzung erstellen. Jedem BigQuery-Notebook kann nur eine aktive Serverless for Apache Spark-Sitzung zugeordnet sein.
Dataproc JupyterLab-Plug-in verwenden, um mehrere Jupyter-Notebook-Sitzungen aus Vorlagen zu erstellen, die Sie erstellen und verwalten. Wenn Sie das Plug-in auf einem lokalen Computer oder einer Compute Engine-VM installieren, werden auf der JupyterLab-Startseite verschiedene Karten angezeigt, die unterschiedlichen Spark-Kernelkonfigurationen entsprechen. Klicken Sie auf eine Karte, um eine Serverless for Apache Spark-Notebook-Sitzung zu erstellen. Beginnen Sie dann mit dem Schreiben und Testen Ihres Codes im Notebook.

Mit dem Dataproc JupyterLab-Plug-in können Sie auch die JupyterLab-Launcher-Seite verwenden, um die folgenden Aktionen auszuführen:
- Dataproc in Compute Engine-Cluster erstellen.
- Jobs an Dataproc in Compute Engine-Cluster senden
- Google Cloud - und Spark-Logs ansehen.

Serverless für Apache Spark im Vergleich zu Dataproc in Compute Engine

Wenn Sie Infrastruktur bereitstellen und verwalten und dann Arbeitslasten in Spark und anderen Open-Source-Verarbeitungs-Frameworks ausführen möchten, verwenden Sie Dataproc in Compute Engine. In der folgenden Tabelle sind die wichtigsten Unterschiede zwischen Dataproc on Compute Engine und Serverless for Apache Spark aufgeführt.

Leistungsvermögen	Serverless for Apache Spark	Dataproc in Compute Engine
Verarbeitungsframeworks	Batcharbeitslasten: Spark 3.5 und frühere Versionen Interaktive Sitzungen: Spark 3.5 und frühere Versionen	Spark 3.5 und frühere Versionen: Andere Open-Source-Frameworks wie Hive, Flink, Trino und Kafka
Serverlos	Ja	Nein
Startzeit	60 Sekunden	90er
Infrastruktursteuerung	Nein	Ja
Ressourcenverwaltung	Spark-basiert	YARN-basiert
GPU-Unterstützung	Ja	Ja
Interaktive Sitzungen	Ja	Nein
Benutzerdefinierte Container	Ja	Nein
VM-Zugriff (z. B. SSH)	Nein	Ja
Java-Versionen	Java 17, 11	Unterstützung für frühere Versionen

Sicherheitscompliance

Serverless für Apache Spark entspricht allen Anforderungen an den Datenspeicherort, CMEK, VPC-SC und anderen Sicherheitsanforderungen, die Dataproc erfüllt.

Funktionen von Batcharbeitslasten

Sie können die folgenden Serverless for Apache Spark-Batcharbeitslasttypen ausführen:

PySpark
Spark SQL
Spark R
Spark (Java oder Scala)

Sie können Spark-Attribute angeben, wenn Sie eine Serverless for Apache Spark-Batcharbeitslast senden.