Hive性能调优：数据倾斜与SQL优化策略

PDF文件

下载需积分: 0 | 4.73MB | 更新于2024-06-21 | 100 浏览量 | 举报 1 收藏

立即下载

本文主要探讨了大数据环境下Hive数据处理中的关键问题，包括性能优化、SQL查询策略调整、参数设置以及数据模型设计。首先，针对Hive性能调优，文章提出了几个重要的优化策略： 1. **优化整体思路**：强调从全局角度出发，针对常见的SQL优化技巧进行改进，如使用增量分区来避免Row_number排序导致的数据倾斜，以及通过临时表替代视图来提高执行效率。 2. **谓词下推**：这是一种让Hive在查询计划阶段就应用过滤条件的技术，以减少实际执行时的数据扫描量。优化规则包括使用`exists`替换写法，`leftjoin`代替`notexists`，以及`innerjoin`替换`exists`，避免子表关联中的`or`操作，转而采用`unionall`。 3. **参数调优**：分为会话级参数（如`hive.tez.container.size`）和系统级参数（如`hive.server*.async.exec.wait.queue.size`），通过调整这些参数可以优化任务调度和执行效率。此外，还讨论了不同数据模型（星型、雪花和星座模型）的选择及其对数据倾斜的影响。 4. **数据模型设计**：介绍了事实表和维度表的划分，以及不同数据模型（增量全量、快照表、拉链表、水平垂直分区）的选择，以及如何应对数据倾斜问题。 5. **小文件过多问题**：通过调整Hive相关参数如`hive.fetch.task.conversion`等来处理这个问题，并提供查看小文件数量的方法。还提到手工合并小文件以及使用shell脚本的方式。 6. **Hive备份与垃圾数据清理**：介绍了备份机制、删除策略，包括 Namenode UI、集群快照UI查看、YARN日志清理，以及Datanode负载均衡在扩展节点后的使用。 7. **其他常见问题**：涉及死锁处理，当连接池不足时，文章给出了降低计算数据量和清洗数据的技术性建议，以解决这些问题。本文是一篇全面指南，旨在帮助Hive用户理解和解决大数据处理过程中遇到的各种挑战，通过优化SQL查询、调整配置参数以及合理设计数据模型，提高Hive的性能和数据处理效率。

推

荐

写

法

推

荐

写

法

会

话

级

参

数

在

session

单

次

会

话

中

⽣

效

，

可

以

在

执

⾏

单

个

sql

前

设

置

。

2.4.2

⽤

inner join

写

法

替

换

exists

2.5

⼦

表

关

联

尽

量

避

免

写

法

，

可

⽤

union all

代

替

3.hive

参

数

调

优

3.1

会

话

级

参

数

select * from a

where exists (select 1 from b where b.id=a.id)

反

例

SQL

复

制

代

码

select * from a

inner join b on b.id=a.id

正

例

SQL

复

制

代

码

select * from a

left join b on b.id=a.id or b.name=a.name

反

例

SQL

复

制

代

码

select * from a

left join b on b.id=a.id

union all

select * from a

left join b on b.name=a.name

正

例

SQL

复

制

代

码

剩余29页未读，继续阅读

恒星

粉丝: 2

Hive性能调优：数据倾斜与SQL优化策略

Hive sql优化

大数据-hive性能优化

数据倾斜优化方案

大数据技术之-08-Hive学习-05-Hive实战之谷粒影音+常见错误及解决方案.docx

hive高级分析函数与优化.rar_hive_hive 函数优化_hive 分析 大数据_hive高级优化_oldwlc

大数据Hive性能优化策略与实战案例

HIVE-SQL开发规范详细指南

【Hive数据倾斜问题分析】：如何识别与解决，让你的Hive不再倾斜

hivesql优化数据倾斜

hive数据倾斜如何解决

最新资源

hive高级分析函数与优化.rar_hive_hive 函数优化_hive 分析大数据_hive高级优化_oldwlc