Spark配置历史服务器

文章讲述了如何配置Spark以启用历史服务器记录任务运行情况,包括重命名spark-defaults.conf.template文件,设置日志存储路径在HDFS上,启动Hadoop集群,修改spark-env.sh文件添加日志配置,分发配置,启动历史服务器,并测试提交SparkPi应用以验证配置。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

1 修改 spark-defaults.conf.template 文件名为 spark-defaults.conf

2 修改 spark-default.conf 文件,配置日志存储路径

3 注意:需要启动 hadoop 集群,HDFS 上的directory 目录需要提前存在。

4 修改 spark-env.sh 文件, 添加日志配置

5 分发配置

6 测试历史服务器


由于 spark-shell 停止掉后,集群监控 linux1:4040 页面就看不到历史任务的运行情况,所以开发时都配置历史服务器记录任务运行情况。

1 修改 spark-defaults.conf.template 文件名为 spark-defaults.conf

mv spark-defaults.conf.template spark-defaults.conf


2 修改 spark-defaults.conf 文件,配置日志存储路径

spark.eventLog.enabled  true
spark.eventLog.dir      hdfs://hadoop102:8020/directory


3 注意:需要启动 hadoop 集群,HDFS 上的directory 目录需要提前存在。

sbin/start-dfs.sh
hdfs dfs -mkdir /directory


4 修改 spark-env.sh 文件, 添加日志配置

# history log server
export SPARK_HISTORY_OPTS="
-Dspark.history.ui.port=18080
-Dspark.history.fs.logDirectory=hdfs://hadoop102:8020/directory
-Dspark.history.retainedApplications=30"

5 分发配置

xsync ../conf

6 启用历史服务器 

[mingyu@hadoop102 spark-standalone]$ sbin/start-history-server.sh

7 测试历史服务器

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://hadoop102:7077 \
./examples/jars/spark-examples_2.12-3.0.0.jar 10

 进入http://hadoop102:18080/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值