- Hive性能调优多样性
- 通过改写SQL优化,减少MR任务数
- 需要理解基本的MR过程和原理,理解HiveSQL是如何转换成计算引擎能运行的算子
- 多张表关联时,将关联条件相同的表放在一起,只会生成一个MR任务
- 数据块大小对性能的影响
- 一般情况下,数据通过网络传输耗费的资源要比本地读写要高的多,要合理设置文件存储的块大小,避免读写文件时进行网络传输
- 不同的数据格式对性能的影响
- ORC(主流选择,提高了Hive的读写和处理数据性能,兼容多种计算引擎) > Parquet(列式数据存储格式,兼容多种计算引擎) > SequenceFile(二进制key/value对平面结构文件,早期广泛用于MapReduce) > TextFile
- 表设计对性能的影响
- 合理使用分区,分桶,分区分桶表来提升性能
- 当对一张表进行全量数据计算时,全量表 > 分区表 > 分桶表> 分区分桶表
- 通过改写SQL优化,减少MR任务数
- Hive问题排查与调优思路
- 了解所使用的计算引擎对应的执行计划
Hive性能调优实战
最新推荐文章于 2025-06-04 13:27:52 发布