Spark 一:安装(单机版)
注意:安装spark之前要安装jdk,hadoop
解压文件到指定目录
[root@cai install]# tar -zxvf spark-2.4.0-bin-hadoop2.6.tgz -C ../bigdata/
修改配置文件
重命名
[root@cai bigdata]# mv spark-2.4.0-bin-hadoop2.6/ spark240
到/spark240/conf目录下
(1)saprk-env.sh
将 spark-env.sh.template 重命名为 spark-env.sh
[root@cai conf]# mv spark-env.sh.template spark-env.sh
添加内容如下:
export SCALA_HOME=/opt/bigdata/scala211
export JAVA_HOME=/opt/bigdata/jdk18
export HADOOP_HOME=/opt/bigdata/scala211/hadoop260
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
SPARK_MASTER_IP=Master
SPARK_LOCAL_DIRS=/usr/local/bigdata/spark-2.4.3
SPARK_DRIVER_MEMORY=512M
(2)slaves (配置单机的话,则不需要配置)
将slaves.template重命名为slaves
修改为如下内容:
Slave01
Slave02
配置环境变量
[root@cai spark240]# vi /etc/profile
添加如下的配置
export SPARK_HOME=/opt/bigdata/spark240
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
运行Spark (已经安装了 scala)
先启动 Hadoop
[root@cai spark240]# start-all.sh
启动 Spark
[root@cai spark240]# spark-shell
Spark 使用 Python 开发
spark既可以使用Scala作为开发语言,也可以使用python作为开发语言。
配置python环境
安装Python
系统已经默认安装了python,但是为了方便开发,推荐可以直接安装Anaconda,这里下载的是安装包是Anaconda3-2019.03-Linux-x86_64.sh,安装过程也很简单,直接执行$ bash Anaconda3-2019.03-Linux-x86_64.sh即可。
启动PySpark的客户端
执行命令:$ pyspark --master spark://master:7077
具体如下:
hadoop@Master:~$ pyspark --master spark://master:7077
Python 3.6.3 |Anaconda, Inc.| (default, Oct 13 2017, 12:02:49)
[GCC 7.2.0] on linux
Type "help", "copyright", "credits" or "license" for more information.
19/06/08 08:12:50 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/__ / .__/\_,_/_/ /_/\_\ version 2.4.3
/_/
Using Python version 3.6.3 (default, Oct 13 2017 12:02:49)
SparkSession available as 'spark'.
>>>
>>>