大数据之 Spark 提交作业的常用参数

最新推荐文章于 2024-07-10 08:00:00 发布

转身成为了码农

最新推荐文章于 2024-07-10 08:00:00 发布

阅读量823

点赞数 14

CC 4.0 BY-SA版权

文章标签：大数据 spark 分布式

本文链接：https://blog.csdn.net/alphonse_10/article/details/136039416

本文详细介绍了如何使用ApacheSparkSubmit命令行参数来配置Spark应用的运行环境和行为，包括主类、集群地址、部署模式、内存和核心设置等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Apache Spark 提交作业时可以使用一系列参数来配置应用运行环境和执行行为。以下是一些常见的Spark Submit命令行参数：

./bin/spark-submit \
--class <主类名> \
--master <集群管理器地址> \
--deploy-mode <部署模式> \
--executor-memory <每个Executor的内存大小> \
--executor-cores <每个Executor的核心数> \
--num-executors <启动Executor的数量> \
--driver-memory <Driver程序的内存大小> \
--driver-cores <Driver程序的核心数> \
--conf <自定义Spark配置项，如spark.shuffle.manager, spark.sql.shuffle.partitions等> \
<应用程序 jar 包、python egg 或 .py 文件路径> \
[应用参数]

详细解释：

--class: 指定要运行的应用程序的主类（对于Java/Scala应用）。
--master: 指定Spark集群的URL，例如spark://hostname:port、yarn或local[*]（本地模式并使用所有可用核心）。
--deploy-mode: 可以是client或cluster，指定Driver程序运行的位置。在client模式下，Driver运行在提交任务的节点上；在cluster模式下，Driver运行在集群内部的一个worker节点上。
--executor-memory: 设置每个Executor进程使用的内存量，比如2g表示2GB。
--executor-cores: 设置每个Executor使用的CPU核心数。
--num-executors: 指定在集群中启动Executor的数量。
--driver-memory: 为Driver分配的内存大小。
--driver-cores: 为Driver分配的CPU核心数。
--conf: 用于设置Spark配置属性，例如调整shuffle行为、日志级别等。
<应用程序jar包、python egg或.py文件路径>: 提交给Spark运行的实际应用程序代码位置。