Spark 一：安装（单机版）

最新推荐文章于 2025-04-23 01:00:00 发布

蔡大远

最新推荐文章于 2025-04-23 01:00:00 发布

阅读量617

点赞数

分类专栏： Spark

本文链接：https://blog.csdn.net/cai_and_luo/article/details/106215416

版权

Spark 专栏收录该内容

31 篇文章

订阅专栏

Spark 一：安装（单机版）

注意：安装spark之前要安装jdk，hadoop

解压文件到指定目录

[root@cai install]# tar -zxvf spark-2.4.0-bin-hadoop2.6.tgz -C ../bigdata/

修改配置文件

重命名

[root@cai bigdata]# mv spark-2.4.0-bin-hadoop2.6/ spark240

到/spark240/conf目录下

（1）saprk-env.sh

将 spark-env.sh.template 重命名为 spark-env.sh

[root@cai conf]# mv spark-env.sh.template spark-env.sh

添加内容如下：

export SCALA_HOME=/opt/bigdata/scala211
export JAVA_HOME=/opt/bigdata/jdk18
export HADOOP_HOME=/opt/bigdata/scala211/hadoop260
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
SPARK_MASTER_IP=Master
SPARK_LOCAL_DIRS=/usr/local/bigdata/spark-2.4.3
SPARK_DRIVER_MEMORY=512M

(2)slaves （配置单机的话，则不需要配置）

将slaves.template重命名为slaves
修改为如下内容：

Slave01
Slave02

配置环境变量

[root@cai spark240]# vi /etc/profile

添加如下的配置

export SPARK_HOME=/opt/bigdata/spark240
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

运行Spark (已经安装了 scala)

先启动 Hadoop

[root@cai spark240]# start-all.sh

启动 Spark

[root@cai spark240]# spark-shell

Spark 使用 Python 开发

spark既可以使用Scala作为开发语言，也可以使用python作为开发语言。

配置python环境

安装Python

系统已经默认安装了python，但是为了方便开发，推荐可以直接安装Anaconda，这里下载的是安装包是Anaconda3-2019.03-Linux-x86_64.sh，安装过程也很简单，直接执行$ bash Anaconda3-2019.03-Linux-x86_64.sh即可。

启动PySpark的客户端

执行命令：$ pyspark --master spark://master:7077

具体如下：

hadoop@Master:~$ pyspark --master spark://master:7077
Python 3.6.3 |Anaconda, Inc.| (default, Oct 13 2017, 12:02:49)
[GCC 7.2.0] on linux
Type "help", "copyright", "credits" or "license" for more information.
19/06/08 08:12:50 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 2.4.3
      /_/

Using Python version 3.6.3 (default, Oct 13 2017 12:02:49)
SparkSession available as 'spark'.
>>>
>>>