首页pyspark环境搭建 hive

pyspark环境搭建 hive

时间: 2025-05-01 14:34:19 浏览: 20

### 如何配置 PySpark 环境以集成 Hive 支持 #### 设置环境变量为了使 PySpark 能够识别并使用特定版本的 Python 解释器，在 `spark-env.sh` 文件中指定 `PYSPARK_PYTHON` 和 `SPARK_HOME` 变量是很重要的操作[^3]。 ```bash export PYSPARK_PYTHON=/opt/cloudera/anaconda3/bin/python export SPARK_HOME=/opt/cloudera/parcels/CDH/lib/spark3 ``` #### 初始化 FindSpark 并创建 SparkSession 对象通过导入 `findspark` 库来初始化 PySpark 的路径，接着构建带有 Hive 支持功能的 `SparkSession` 实例。这一步骤对于连接至远程 Hive 数据库至关重要[^2]。 ```python import findspark findspark.init() from pyspark.sql import SparkSession os.environ['JAVA_HOME'] = '/opt/java/jdk1.8.0_11' spark = ( SparkSession.builder .master("local[*]") .appName("hive") .enableHiveSupport() .config("spark.sql.warehouse.dir", "/user/hive/warehouse") # 如果需要的话，设置仓库目录位置 .getOrCreate() ) # 启用 Arrow 优化以及调整内存参数 spark.conf.set("spark.sql.execution.arrow.pyspark.enabled", "true") spark.conf.set('spark.driver.memory', '8g') spark.conf.set('spark.executor.memory', '4g') # 切换数据库和展示表格信息作为测试命令 spark.sql("use adm_2153095").collect() df = spark.sql("show tables") df.show(10) ``` 上述代码片段展示了如何正确地建立一个具有 Hive 功能的支持会话，并执行简单的 SQL 查询语句验证连通性。

阅读全文