目录
1 修改 spark-defaults.conf.template 文件名为 spark-defaults.conf
2 修改 spark-default.conf 文件,配置日志存储路径
3 注意:需要启动 hadoop 集群,HDFS 上的directory 目录需要提前存在。
由于 spark-shell 停止掉后,集群监控 linux1:4040 页面就看不到历史任务的运行情况,所以开发时都配置历史服务器记录任务运行情况。
1 修改 spark-defaults.conf.template 文件名为 spark-defaults.conf
mv spark-defaults.conf.template spark-defaults.conf
2 修改 spark-defaults.conf 文件,配置日志存储路径
spark.eventLog.enabled true
spark.eventLog.dir hdfs://hadoop102:8020/directory
3 注意:需要启动 hadoop 集群,HDFS 上的directory 目录需要提前存在。
sbin/start-dfs.sh
hdfs dfs -mkdir /directory

4 修改 spark-env.sh 文件, 添加日志配置
# history log server
export SPARK_HISTORY_OPTS="
-Dspark.history.ui.port=18080
-Dspark.history.fs.logDirectory=hdfs://hadoop102:8020/directory
-Dspark.history.retainedApplications=30"
5 分发配置
xsync ../conf
6 启用历史服务器
[mingyu@hadoop102 spark-standalone]$ sbin/start-history-server.sh
7 测试历史服务器
bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://hadoop102:7077 \
./examples/jars/spark-examples_2.12-3.0.0.jar 10
进入http://hadoop102:18080/