Spark SQL解析过程

最新推荐文章于 2025-05-12 22:26:22 发布

彩笔程序猿zxxxx

最新推荐文章于 2025-05-12 22:26:22 发布

阅读量1.4k

点赞数

CC 4.0 BY-SA版权

分类专栏： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kaede1209/article/details/107548732

博客详细介绍了Spark SQL如何将SQL和DataFrame解析成逻辑执行计划，并从Hive Metastore获取元数据。经过优化器的应用，如谓词下推，生成物理执行计划。优化过程包括将UNresolveRelation绑定为CatalogRelation，以及根据表大小选择合适的Join策略，如MapJoin或SortMergeJoin。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

黄色的是数据结构，蓝色的spark的模块，绿色的是hive matestore 。

SQL和DataFrame 进来会先解析成逻辑执行计划，从hive metasotre里面拿一些表、字段的元数据信息，生成一个解析过的执行计划。经过spark的优化器，改变逻辑执行计划的逻辑结构，通过planner生成物理的执行计划。

将sql转换成抽象语法书（逻辑执行计划）

右边的含义：relation就是一个表的意思，UNresolveRelation是指还没有解析过，现在还没有从元数据那获取信息，不知道表里具体的情况；再往上是有一个left join，join的key值是id；经过join之后是Filter，是where里面的条件；然后是Project，叫做投影，是select里面选的字段。

Analyze是查询hive metastore，绑定元数据，拿一些table的信息、列的信息等，如果这个是一个view（视图），就会展开视图的逻辑，做进一步的解析。红色部分为发生的变化。

经过绑定元数据之后，UNresolveRelation变成了CatalogRelation，CatalogRelation代表的是hive表的意思，会绑定字段的类型，如果查一个不存在的字段或者表，就会在这一步报错

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。