ubuntu配置pyspark
时间: 2025-05-04 10:50:59 浏览: 38
### 如何在 Ubuntu 系统中安装和配置 PySpark
#### 1. 更新系统包管理器
为了确保系统的依赖项是最新的,在开始之前先更新 `apt` 软件源列表以及升级现有软件包。
```bash
sudo apt-get update && sudo apt-get upgrade -y
```
#### 2. 安装必要的工具和库
在安装 PySpark 前,需要准备一些基础开发环境。以下是必需的工具及其用途:
- **vim**: 编辑文件所需的文本编辑器。
- **openjdk**: Java 是 Spark 的运行时依赖之一。
执行以下命令来完成这些工具的安装:
```bash
sudo apt-get install -y vim openjdk-17-jdk
```
此操作会自动设置 JDK 到 `/usr/lib/jvm/java-17-openjdk-amd64/` 并将其加入到 PATH 中[^3]。
#### 3. 下载并解压 Apache Spark
访问 [Apache Spark 官方下载页面](https://spark.apache.org/downloads.html),选择适合的操作系统版本(推荐预编译二进制版)。假设选择了 Spark 3.2.0,则可以通过以下方式获取它:
```bash
wget https://downloads.apache.org/spark/spark-3.2.0/spark-3.2.0-bin-hadoop3.2.tgz
tar xzf spark-3.2.0-bin-hadoop3.2.tgz -C /opt/
ln -s /opt/spark-3.2.0-bin-hadoop3.2 /opt/spark
```
上述脚本将压缩包放置于 `/opt/` 文件夹下,并创建了一个软链接以便后续维护更方便[^2]。
#### 4. 配置环境变量
为了让操作系统识别 Spark 和 Python,默认路径需被添加至 `.bashrc` 或者全局 profile 文件里。打开终端输入如下指令实现这一目标:
```bash
echo 'export SPARK_HOME=/opt/spark' >> ~/.bashrc
echo 'export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin' >> ~/.bashrc
source ~/.bashrc
```
如果希望所有用户都能使用该服务而不是仅限当前登录账户的话,请把上面两行追加到 `/etc/profile.d/spark.sh` 当中去替代个人用户的 .bashrc 设置方法。
#### 5. 修改 Spark 默认参数 (可选)
进入 `$SPARK_HOME/conf/` 目录找到名为 `spark-env.sh.template` 的模板副本重命名为无扩展名形式即实际生效的名字——`spark-env.sh` 。接着利用你喜欢的文字处理器对其进行调整比如指定 JAVA_HOME 及其他高级选项等。
```bash
cp $SPARK_HOME/conf/spark-env.sh.template $SPARK_HOME/conf/spark-env.sh
nano $SPARK_HOME/conf/spark-env.sh
```
在此处可以定义额外的关键字例如 PYSPARK_PYTHON 来覆盖默认解释程序位置从而支持特定虚拟环境中运行 Pyspark 实例:
```bash
export PYSPARK_PYTHON=python3
```
#### 6. 测试本地模式下的简单作业
现在应该已经准备好测试新搭建好的框架是否正常工作啦! 执行下面这条简单的命令看看效果吧~
```bash
pyspark --master local[*]
sc.parallelize([1, 2, 3]).map(lambda x: x * 2).collect()
```
当看到返回 `[2, 4, 6]` 结果的时候就说明一切顺利完成了!
#### 7. Jupyter Notebook 整合
对于数据分析人员来说,能够直接通过交互式的界面来进行探索性分析是非常重要的功能特性之一。幸运的是我们可以轻松做到这一点!
首先确认 pip 已经可用之后再继续下一步骤;如果没有则需要先行解决这个问题才行哦~
然后按照官方指导手册中的描述逐步实施即可[^1]:
```bash
pip install jupyter notebook pyspark findspark
findspark.init() # 在notebook开头调用初始化函数
```
最后启动 web server 后就可以愉快玩耍咯~
```bash
jupyter-notebook
```
---
###
阅读全文
相关推荐


















