Hive动态分区

本文介绍了Hive中的动态分区特性,动态分区在大数据批量导入时提供了便利。通过修改hive-site.xml配置文件,启用动态分区功能,并设置相关参数。然后创建分区表,最后展示如何插入数据到动态分区表中,以此实现数据的高效存储和查询。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在hive中,可以通过分区进行性能优化,通过此过程数据将以某个字段进行分片存储,从而缩小查询的扫描范围,提高查询速度。

hive分区可分为静态分区和动态分区。静态分区和动态分区的区别在于导入数据时,是手动输入分区名称,还是通过数据来判断数据分区。对于大数据批量导入来说,显然采用动态分区更为简单方便。

使用hive动态分区,可分为以下步骤:

1.修改配置文件hive-site.xml以支持动态分区

hive.exec.dynamic.partition  true

hive.exec.dynamic.partition.mode nonstrict      (设置dynamic partition模式,nostrict允许所有partition列都为dynamic partition,strict不允许)

hive.exec.max.dynamic.partitions  10000     (总共允许创建的最大动态分区数)

hive.exec.max.dynamic.partitions.pernode  10000    (一个Mapper/Reducer节点可以创建的最大动态分区数)

hive.exec.max.created.files 100000  (一个MapreduceJob可以创建的最大文件数)


2.创建表

hive> create table monitor(monitor_date string, h2 double, ch4 double)

       >  partitioned by (monitor_id string)

       >  row format delimited fields terminated by ',' ;


3.插入数据

hive> insert overwrite table monitor partition(monitor_id) 

       > select monitor_date, h2, ch4, monitor_id 

       > from monitor_tmp

       > order by monitor_date;




评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值