静态分区裁剪(Static Partition Pruning)
用过 Spark 的同学都知道, Spark SQL 在查询的时候支持分区裁剪,比如我们如果有以下的查询:
SELECT * FROM Sales_iteblog WHERE day_of_week = 'Mon'
Spark 会自动进行以下的优化:
如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop
从上图可以看到,Spark 在编译 SQL 的时候自动将 Filter 算子下推到数据源,也就是在 Scan 前进行了 Filter 操作,将 day_of_week = 'Mon' 的数据全部拿出来,其他数据不需要的拿出,这样 Spark SQL 中处理的数据就变少了,整个 SQL 的查询数据就会变快,这一切都是编译的时候(compile time)进行的,所以这个叫做静态分区裁剪(Static Partition Pruning)。
上