Hive动态分区

最新推荐文章于 2025-05-17 13:09:41 发布

晨曦寒水

最新推荐文章于 2025-05-17 13:09:41 发布

阅读量944

点赞数 1

CC 4.0 BY-SA版权

分类专栏：大数据文章标签： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/rainbowlemonade/article/details/49682717

大数据专栏收录该内容

8 篇文章

订阅专栏

本文介绍了Hive中的动态分区特性，动态分区在大数据批量导入时提供了便利。通过修改hive-site.xml配置文件，启用动态分区功能，并设置相关参数。然后创建分区表，最后展示如何插入数据到动态分区表中，以此实现数据的高效存储和查询。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在hive中，可以通过分区进行性能优化，通过此过程数据将以某个字段进行分片存储，从而缩小查询的扫描范围，提高查询速度。

hive分区可分为静态分区和动态分区。静态分区和动态分区的区别在于导入数据时，是手动输入分区名称，还是通过数据来判断数据分区。对于大数据批量导入来说，显然采用动态分区更为简单方便。

使用hive动态分区，可分为以下步骤：

1.修改配置文件hive-site.xml以支持动态分区

hive.exec.dynamic.partition true

hive.exec.dynamic.partition.mode nonstrict （设置dynamic partition模式，nostrict允许所有partition列都为dynamic partition，strict不允许）

hive.exec.max.dynamic.partitions 10000 （总共允许创建的最大动态分区数）

hive.exec.max.dynamic.partitions.pernode 10000 （一个Mapper/Reducer节点可以创建的最大动态分区数）

hive.exec.max.created.files 100000 （一个MapreduceJob可以创建的最大文件数）

2.创建表

hive> create table monitor(monitor_date string, h2 double, ch4 double)

> partitioned by (monitor_id string)

> row format delimited fields terminated by ',' ;

3.插入数据

hive> insert overwrite table monitor partition(monitor_id)

> select monitor_date, h2, ch4, monitor_id

> from monitor_tmp

> order by monitor_date;

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。