蜗龙徒行-Spark学习笔记【四】Spark集群中使用spark-submit提交jar任务包实战经验

本文链接：https://blog.csdn.net/cafuc46wingw/article/details/45043941

本文介绍了在Spark集群中使用spark-submit提交jar任务包的经验，包括遇到的问题、spark-shell的功能、项目创建与打包过程，以及Spark应用程序的部署和运行实验，强调了SSH无密码登录和executor内存配置的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、所遇问题

由于在IDEA下可以方便快捷地运行scala程序，所以先前并没有在终端下使用spark-submit提交打包好的jar任务包的习惯，但是其只能在local模式下执行，在网上搜了好多帖子设置VM参数都不能启动spark集群，由于实验任务紧急只能暂时作罢IDEA下任务提交，继而改由终端下使用spark-submit提交打包好的jar任务。

二、spark-shell功能介绍

进入$SPARK_HOME目录，输入bin/spark-submit --help可以得到该命令的使用帮助。

       --master MASTER_URL      spark://host:port, mesos://host:port, yarn, or local.
       --deploy-mode    DEPLOY_MODE          driver运行之处，client运行在本机，cluster运行在集群
       --class CLASS_NAME                              应用程序包的要运行的class
       --name NAME                                             应用程序名称
       --jars JARS                                                  用逗号隔开的driver本地jar包列表以及executor类路径
       --py-files PY_FILES                                   用逗号隔开的放置在Python应用程序PYTHONPATH上的.zip, .egg, .py文件列表
       --files                                                            FILES 用逗号隔开的要放置在每个executor工作目录的文件列表
       --properties-file                                           FILE 设置应用程序属性的文件放置位置，默认是conf/spark-defaults.conf
       --driver-memory MEM                               driver内存大小，默认512M
       --driver-java-options                                  driver的java选项
       --driver-library-path                                    driver的库路径Extra library path entries to pass to the driver
       --driver-class-path                                      driver的类路径，用--jars 添加的jar包会自动包含在类路径里
       --executor-memory MEM                          executor内存大小，默认1G

       Spark standalone with cluster deploy mode only:
       --driver-cores NUM driver使用内核数，默认为1
       --supervise 如果设置了该参数，driver失败是会重启

       Spark standalone and Mesos only:
       --total-executor-cores NUM executor使用的总核数

       YARN-only:
       --executor-cores NUM 每个executor使用的内核数，默认为1
       --queue QUEUE_NAME 提交应用程序给哪个YARN的队列，默认是default队列
       --num-executors NUM 启动的executor数量，默认是2个
       --archives ARCHIVES 被每个executor提取到工作目录的档案列表，用逗号隔开