Linux CentOS安装PySpark3.5（单机版）详细教程及机器学习实战

原创

已于 2024-09-25 10:20:37 修改 · 2.1k 阅读

·

31

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#python #PySpark #spark

于 2024-09-05 14:11:37 首次发布

目录

一、安装须知

二、安装Spark

1、下载安装包

2、修改配置文件spark-env.sh

3、验证Spark是否安装成功

三、安装py4j

四、安装Scala

五、配置环境变量

六、基于PySpark的机器学习实战

1、将数据文件上传HDFS

2、创建代码文件

3、提交应用程序

一、安装须知

前置依赖：

JDK 1.8

Hadoop 3.1.3

安装教程可见我的另一篇文章：Linux CentOS安装Hadoop3.1.3（单机版）详细教程

本教程将对以下软件进行安装：

Spark 3.5.2

py4j

二、安装Spark

1、下载安装包

进入下载地址

下载“spark-3.5.2-bin-without-hadoop.tgz”，然后上传到linux服务器上。

或者在服务器使用以下命令下载安装包：

wget https://archive.apache.org/dist/spark/spark-3.5.2/spark-3.5.2-bin-without-hadoop.tgz

将安装包解压：

tar -zxf spark-3.5.2-bin-without-hadoop.tgz -C /opt
mv /opt/spark-3.5.2-bin-without-hadoop/ /opt/spark

2、修改配置文件spark-env.sh

修改配置文件spark-env.sh，命令如下：

cd /opt/spark
cp ./conf/spark-env.sh.template ./conf/spark-env.sh

编辑spark-env.sh文件：

vim ./conf/spark-env.sh

设置SPARK_DIST_CLASSPATH环境变量并保存：

export SPARK_DIST_CLASSPATH=$(/opt/hadoop/bin/hadoop classpath)

通过执行 /opt/hadoop/bin/hadoop classpath 命令获取的 Hadoop 类路径（classpath）。

在 Hadoop 中，classpath 命令用于输出一个命令行，该命令行可以用来设置 Java 的类路径，以便 Hadoop 能够找到它需要的所有库和配置文件。这个命令行通常包含了 Hadoop 的 conf 目录、HDFS 的 data 目录以及 Hadoop 的 lib 目录中的所有 JAR 文件。

将 classpath 命令的输出设置为 SPARK_DIST_CLASSPATH 环境变量，有助于确保 Spark 能够正确地识别和访问 Hadoop 的依赖和配置。这样，Spark 就可以与 Hadoop 协同工作，利用 Hadoop 的文件系统和其他 Hadoop 相关的功能。

3、验证Spark是否安装成功

运行以下命令：</

最低0.47元/天解锁文章

200万优质内容无限畅学

小楼一夜听春雨258

博客等级

码龄7年

55
原创

823
点赞

2486
收藏

367
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: Linux CentOS安装Hadoop3.1.3（单机版）详细教程

下一篇：: HDFS常用命令及Python连接HDFS操作

最新评论

SQL笔试经典40题
zhangxl5232: 第17题，要查询所有学生的平均成绩，那么没有选课的，是否也应该显示出来。但是成绩是0
SQL笔试经典40题
zhangxl5232: 第17题，要显示所有学生的平均成绩，没有选课的，是否要显示0？
SQL笔试经典40题
zhangxl5232: 第12题，只比较课程总数，是不是也不太对
差分隐私基础及在机器学习领域的应用与对比实验
lost in sea: 作者你好，我最近有一个关于如何像梯度加噪音的困惑，我看的opacus的源码是先对批样本的每个样本进行裁剪，然后在聚合梯度上加入高斯分布的噪音，高斯分布的标准差为裁剪范数乘噪声乘数，然后再对加了噪的聚合梯度进行缩放以保证正常的训练，我疑惑之前加的噪声也被缩放了，如果我设置噪声乘数为10.0，裁剪范数为1，实际训练的结果与没进行差分隐私的结果精度差别不大。但是我看有的文献也是这么做的，但是加了噪的和原模型的精度差别很大，请问这是怎么回事
PySpark之金融数据分析（Spark RDD、SQL练习题）
aiwozhonghua1949: 抱歉，文章里提供了，刚才没有看到。

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

小楼一夜听春雨258 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。