PySaprk 将 DataFrame 数据保存为 Hive 分区表

最新推荐文章于 2025-05-14 19:56:50 发布

XnCSD

最新推荐文章于 2025-05-14 19:56:50 发布

阅读量7.4k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： pyspark 文章标签： PySpark Hive

本文链接：https://blog.csdn.net/xncsd/article/details/94027895

本文介绍了如何使用PySpark将DataFrame数据保存到Hive分区表，包括创建分区表、向已存在表插入数据，并讨论了不同插入模式及文件数量设置。重点关注df.write.saveAsTable()方法和动态分区的使用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

PySaprk 将 DataFrame 数据保存为 Hive 分区表

创建 SparkSession

from pyspark.sql import SparkSession

spark = SparkSession.builder.enableHiveSupport().appName('test_app').getOrCreate()
sc = spark.sparkContext
hc = HiveContext(sc)

1. Spark创建分区表

# 可以将append改为overwrite，这样如果表已存在会删掉之前的表，新建表
df.write.saveAsTable(save_table, mode='append', partitionBy=['pt_day'])

saveAsTable 会自动创建hive表，partitionBy指定分区字段，默认存储为 parquet 文件格式。对于从文件生成的DataFrame，字段类型也是自动转换的，有时会转换成不符合要求的类型。

需要自定义字段类型的，可以在创建DataFrame时指定类型：

from pyspark.sql.types import StringType, StructType, BooleanType, StructField

schema = StructType([
    StructField("vin", StringType(), True),
    StructField("cust_id", StringType(), True),
    StructField("is_maintain", BooleanType(), True),
    StructField("is_wash", BooleanType(), True),
    StructField("pt_day", StringType(), True),
]
)