Linux离线安装pyspark与尝试使用pyspark连接数据库

最新推荐文章于 2025-06-09 20:51:05 发布

ml_hhy

最新推荐文章于 2025-06-09 20:51:05 发布

阅读量3.2k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： python相关大数据

本文链接：https://blog.csdn.net/ghj786110/article/details/82880577

python相关同时被 2 个专栏收录

7 篇文章

订阅专栏

大数据

5 篇文章

订阅专栏

本文详细介绍如何在没有网络连接的情况下，针对Java版本1.7和Spark版本2.2.0，离线安装PySpark的过程。包括安装Anaconda离线版以确保pandas、numpy、scikit-learn等库可用，以及解决pypandoc和py4j==0.10.4缺失的问题。同时，还提供了连接数据库的具体步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

针对于已经存在的java版本1.7, spark版本2.2.0，离线安装pyspark
所需的安装包都需自行另外寻找，本篇不提供下载地址

第一步（需保证pyspark相关依赖有）: 安装anconda离线版(保证得带上pandas, numpy, scikit-learn这几个pyspark所需库)
1, 首先安装anconda2
./Anaconda2-5.2.0-Linux-x86_64.sh
2, 配置全局变量
vi /etc/profile
将anaconda2的所在的bin加入到profile文件最后一行
export PATH=/home/anaconda2/bin:$PATH

第二步安装Pyspark:
1, 安装pyspark-2.1.2.tar.gz
2, tar -zxvf 解压, 进入到pyspark-2.1.2.tar目录, 使用python setup.py install 进行安装
3, 发现报错提示pypandoc没安装, 下载pypandoc-1.4.tar.gz进行, 再tar -zxvf 解压, 进入到pypandoc-1.4目录, 使用python setup.py install 进行安装
4, 发现未找到py4j==0.10.4, 下载py4j-0.10.4.tar.gz, tar -zxvf解压, 进入到py4j-0.10.4目录, 使用python setup.py install 进行安装

连接数据库流程
from pyspark import SparkConf, SparkContext
from pyspark.sql import HiveContext

这里地址需要按照所需的进行更改
conf = (SparkConf()
.setMaster(“spark://127.0.0.1:7077”)
.setAppName(“lychee”)
.set(“spark.executor.memory”, “1g”))
sc = SparkContext(conf = conf)
sqlContext = HiveContext(sc)
my_dataframe = sqlContext.sql(“Select count(1) from gdlq_hive.lq_tm_p_credit_score_sub_terminal”)
my_dataframe.show()