pyspark环境搭建 hive
时间: 2025-05-01 14:34:19 浏览: 20
### 如何配置 PySpark 环境以集成 Hive 支持
#### 设置环境变量
为了使 PySpark 能够识别并使用特定版本的 Python 解释器,在 `spark-env.sh` 文件中指定 `PYSPARK_PYTHON` 和 `SPARK_HOME` 变量是很重要的操作[^3]。
```bash
export PYSPARK_PYTHON=/opt/cloudera/anaconda3/bin/python
export SPARK_HOME=/opt/cloudera/parcels/CDH/lib/spark3
```
#### 初始化 FindSpark 并创建 SparkSession 对象
通过导入 `findspark` 库来初始化 PySpark 的路径,接着构建带有 Hive 支持功能的 `SparkSession` 实例。这一步骤对于连接至远程 Hive 数据库至关重要[^2]。
```python
import findspark
findspark.init()
from pyspark.sql import SparkSession
os.environ['JAVA_HOME'] = '/opt/java/jdk1.8.0_11'
spark = (
SparkSession.builder
.master("local[*]")
.appName("hive")
.enableHiveSupport()
.config("spark.sql.warehouse.dir", "/user/hive/warehouse") # 如果需要的话,设置仓库目录位置
.getOrCreate()
)
# 启用 Arrow 优化以及调整内存参数
spark.conf.set("spark.sql.execution.arrow.pyspark.enabled", "true")
spark.conf.set('spark.driver.memory', '8g')
spark.conf.set('spark.executor.memory', '4g')
# 切换数据库和展示表格信息作为测试命令
spark.sql("use adm_2153095").collect()
df = spark.sql("show tables")
df.show(10)
```
上述代码片段展示了如何正确地建立一个具有 Hive 功能的支持会话,并执行简单的 SQL 查询语句验证连通性。
阅读全文
相关推荐


















