一、Local 环境
本地模式,即不需要其他任何节点资源就可以在本地执行 Spark 代码的环境;区别于 IDEA 开发时的 local 环境
1. 搭建
-
Spark 下载地址:https://spark.apache.org/downloads.html
-
下载
spark-3.0.0-bin-hadoop3.2.tgz
安装包并上传到虚拟机上的/opt/software
目录 -
将
spark-3.0.0-bin-hadoop3.2.tgz
解压缩到/opt/module
并修改名称tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module cd /opt/module mv spark-3.0.0-bin-hadoop3.2.tgz spark-local
-
进入
spark-local
目录执行bin/spark-shell
检查是否搭建成功cd /opt/module/spark-local bin/spark-shell
-
查看 Web 监控页面:
http://hadoop102:4040
2. 操作
-
命令行工具:
bin/spark-shell # 进入 scala 命令工具 sc.textFile("data/word.txt").flatMap(_.split(" ")) .map((_,1)).reduceByKey(_+_).collect().foreach(println)
-
提交应用:
bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master local[2] \ ./examples/jars/spark-examples_2.12-3.0.0.jar \ 10
bin/spark-submit
表示提交命令--class
表示要执行程序的主类--master local[2]
表示部署模式,默认为本地模式,数字表示分配的虚拟 CPU 核数量spark-examples_2.12-3.0.0.jar
表示运行的应用类所在的 jar 包10
表示程序的入口参数,用于设定当前应用的任务数量
二、Standalone 环境
独立部署模式,只使用 Spark 自身节点运行的集群模式,分为 master 和 workers
1. 集群规划
Spark | Hadoop102 | Hadoop103 | Hadoop104 |
---|---|---|---|
master | √ | ||
worker | √ | √ | √ |
2. 搭建
-
下载
spark-3.0.0-bin-hadoop3.2.tgz
安装包并上传到虚拟机上的/opt/software
目录 -
将
spark-3.0.0-bin-hadoop3.2.tgz
解压缩到/opt/module
并修改名称tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module cd /opt/module mv spark-3.0.0-bin-hadoop3.2.tgz spark-standalone
-
修改配置文件
# 1.进入 spark-standalone 的