Spark3.0新特性-AQE

最新推荐文章于 2025-05-14 09:03:36 发布

wangleigiser

最新推荐文章于 2025-05-14 09:03:36 发布

阅读量3.9k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： Spark专栏大数据文章标签： big data 数据库 spark 大数据数据仓库

本文链接：https://blog.csdn.net/wangleigiser/article/details/123515275

大数据同时被 2 个专栏收录

17 篇文章

订阅专栏

Spark专栏

6 篇文章

订阅专栏

《图解Spark大数据快速分析实战》一书中详细介绍了SparkSQL的AQE（Adaptive Query Execution）特性，该特性在执行过程中动态优化查询计划，以提高SQL语句的执行效率。AQE主要针对统计信息过期、代价高、自定义UDF预估困难及手动hints不灵活等问题，通过实时统计信息对查询阶段进行优化，实现边执行边优化，显著提升了大数据分析的速度和效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

想要更全面了解Spark内核和应用实战，可以购买我的新书。

《图解Spark 大数据快速分析实战》(王磊)【摘要书评试读】- 京东图书https://item.jd.com/13613302.html

AQE

1．AQE的概念

Spark SQL是Spark开发中使用最广泛的引擎，它使得我们通过简单的几条SQL语句就能完成海量数据（TB或PB级数据）的分析。

AQE（Adaptive Query Execution，自适应查询执行）的作用是对正在执行的查询任务进行优化。AQE使Spark计划器在运行过程中可以检测到在满足某种条件的情况下可以进行的动态自适应规划，自适应规划会基于运行时的统计数据对正在运行的任务进行优化，从而提升性能。

如图8-2所示，一条SQL语句在执行过程中会经历如下阶段：通过解析器把SQL语句解析为语法树；通过分析器把语法树解析为分析后的逻辑计划；通过优化器对执行计划进行优化，得到优化后的逻辑计划；逻辑计划通过计划器被转换为物理计划；物理计划在通过查询成本模型评估后，最优的那个将被执行。

图8-2 SQL语句的执行过程

上述流程是预先根据SQL语句和数据分布对SQL进行解析、优化和执行的，但由于执行计划是预估的，准确性很难保证，因此执行计划并不是最理想的。有了AQE后，Spark就可以在任务运行过程中实时统计任务的执行情况，并通过自适应计划将统计结果反馈给优化器，从而对任务再次进行优化，这种边执行、边优化的方式极大提高了SQL的执行效率。

AQE主要用于解决如下问题：

（1）统计信息过期或缺失导致估计错误。

（2）收集统计信息的代价较大。

（3）因某些谓词使用自定义UDF导致无法预估。

（4）开发人员在SQL上手动指定hints跟不上数据的变化。

2．AQE的工作原理

当查询任务提交后，Spark就会根据Shuffle操作将任务划分为多个查询阶段。在执行过程中，上一个查询执行完之后，系统会将查询结果保存下来，这样下一个查询就可以基于上一个查询的结果继续进行计算了。

如图8-3所示，SQL语句“select x, avg（y）from t group by x order by avg（y）”的执行在两个Shuffle处被划分为两个查询阶段，第一个查询阶段包括扫描（scan）、聚合（aggregate）和Shuffle操作，第二个查询阶段包括聚合和Shuffle操作，最后对数据进行排序（sort）。