目录
一、安装须知
前置依赖:
JDK 1.8
Hadoop 3.1.3
安装教程可见我的另一篇文章:Linux CentOS安装Hadoop3.1.3(单机版)详细教程
本教程将对以下软件进行安装:
Spark 3.5.2
py4j
二、安装Spark
1、下载安装包
进入下载地址
下载“spark-3.5.2-bin-without-hadoop.tgz”,然后上传到linux服务器上。
或者在服务器使用以下命令下载安装包:
wget https://archive.apache.org/dist/spark/spark-3.5.2/spark-3.5.2-bin-without-hadoop.tgz
将安装包解压:
tar -zxf spark-3.5.2-bin-without-hadoop.tgz -C /opt
mv /opt/spark-3.5.2-bin-without-hadoop/ /opt/spark
2、修改配置文件spark-env.sh
修改配置文件spark-env.sh,命令如下:
cd /opt/spark
cp ./conf/spark-env.sh.template ./conf/spark-env.sh
编辑spark-env.sh文件:
vim ./conf/spark-env.sh
设置SPARK_DIST_CLASSPATH环境变量并保存:
export SPARK_DIST_CLASSPATH=$(/opt/hadoop/bin/hadoop classpath)
通过执行 /opt/hadoop/bin/hadoop classpath 命令获取的 Hadoop 类路径(classpath)。
在 Hadoop 中,classpath 命令用于输出一个命令行,该命令行可以用来设置 Java 的类路径,以便 Hadoop 能够找到它需要的所有库和配置文件。这个命令行通常包含了 Hadoop 的 conf 目录、HDFS 的 data 目录以及 Hadoop 的 lib 目录中的所有 JAR 文件。
将 classpath 命令的输出设置为 SPARK_DIST_CLASSPATH 环境变量,有助于确保 Spark 能够正确地识别和访问 Hadoop 的依赖和配置。这样,Spark 就可以与 Hadoop 协同工作,利用 Hadoop 的文件系统和其他 Hadoop 相关的功能。
3、验证Spark是否安装成功
运行以下命令:</