1.启动hdfs
2.启动yarn
3.启动spark
4.启动后各节点的正常情况
5.编辑spark-defaults.conf 和 spark-env.sh
6.重启master和workers
stop-workers.sh
stop-master.sh
start-master.sh
start-workers.sh
7.在UI界面里面添加目录spark-logs
8.进入到spark下
9.spark的运行架构
(1)按照主从模式进行部署
主节点:master---资源管理调度和任务的分配(类似yarn)
从节点:worker---执行具体的计算任务
(2)整体运行架构
用户编写spark应用程序
用户将应用程序提交给spark集群
驱动器会创建对应的编程入口(SparkContext/SparkSession)
主节点复制资源管理调度和任务分配
从节点执行计算任务(多个计算任务:每个计算任务会分配一个执行器)
从节点会将任务的结果返回到主节点,主节点再继续做相应的操作