Spark配置历史服务器_spark历史服务器-CSDN博客

本文链接：https://blog.csdn.net/weixin_43652205/article/details/129743399

文章讲述了如何配置Spark以启用历史服务器记录任务运行情况，包括重命名spark-defaults.conf.template文件，设置日志存储路径在HDFS上，启动Hadoop集群，修改spark-env.sh文件添加日志配置，分发配置，启动历史服务器，并测试提交SparkPi应用以验证配置。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 修改 spark-defaults.conf.template 文件名为 spark-defaults.conf

2 修改 spark-default.conf 文件，配置日志存储路径

3 注意：需要启动 hadoop 集群，HDFS 上的directory 目录需要提前存在。

4 修改 spark-env.sh 文件, 添加日志配置

5 分发配置

6 测试历史服务器

由于 spark-shell 停止掉后，集群监控 linux1:4040 页面就看不到历史任务的运行情况，所以开发时都配置历史服务器记录任务运行情况。

1 修改 spark-defaults.conf.template 文件名为 spark-defaults.conf

mv spark-defaults.conf.template spark-defaults.conf

2 修改 spark-defaults.conf 文件，配置日志存储路径

spark.eventLog.enabled  true
spark.eventLog.dir      hdfs://hadoop102:8020/directory

3 注意：需要启动 hadoop 集群，HDFS 上的directory 目录需要提前存在。

sbin/start-dfs.sh
hdfs dfs -mkdir /directory

4 修改 spark-env.sh 文件, 添加日志配置

# history log server
export SPARK_HISTORY_OPTS="
-Dspark.history.ui.port=18080
-Dspark.history.fs.logDirectory=hdfs://hadoop102:8020/directory
-Dspark.history.retainedApplications=30"

5 分发配置

xsync ../conf

6 启用历史服务器

[mingyu@hadoop102 spark-standalone]$ sbin/start-history-server.sh

7 测试历史服务器

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://hadoop102:7077 \
./examples/jars/spark-examples_2.12-3.0.0.jar 10

进入http://hadoop102:18080/