大家好,我是雷恩Layne,这是《深入浅出flink》系列的第九篇文章,希望能对您有所收获O(∩_∩)O
刚学习flink的同学可能会有疑惑,GlobalWindows、window、windowAll到底有什么关系?GlobalWindows和windowAll的并行度都是1吗?window和windowAll的区别是什么?看了这篇文章,你将完全明白它们之间的区别与联系。
window和windowAll都是对stream定义窗口的方法,都需要传入WindowAssigner(窗口分配器)执行具体的开窗操作,开窗后都需要通过具体的WindowFunction(如reduce/aggregate/process/apply)对窗口内的元素进行计算。
它们的区别在于:
- window只能在已经分区的 KeyedStream 上定义,通过KeyedStream转化为WindowedStream执行具体的开窗操作。
- windowAll只能在未分区的DataStream上定义,调用windowAll方法后,会把DataStream转化为AllWindowedStream,并得到全局统计结果。也就是说WindowAll并行度只能1,且不可设置并行度。
- window是KeyedStream中的方法,windowAll是DataStream中的方法
window和windowAll都是Stream中的一个方法,而GlobalWindows是一个窗口分配器,需要传入到一个定义好的窗口中才能生效,即传入到window或windowAll中才能起作用。GlobalWindows会把分区内所有的元素分配到同一个窗口,其通常配合触发器 (trigger) 进行使用。如果没有相应触发器,则计算将不会被执行。
GlobalWindows作为一个全局的窗口分配器,它不像TimeWindow或CountWindow那样通过元素个数来划分成一个个窗口,而是把分区内所有的元素分配到同一个窗口,所以说如果没有定义触发器,那么整个subTask中就只有一个窗口,且一直存在,不会触发计算。
需要注意的是,GlobalWindows作为窗口分配器传入定义好的window或windowAll中,并行度不一定为1,要分具体的情况:
- 如果GlobalWindows传入window中,那么开窗的stream一定是keyed类型(即KeyedStream),此时并行度由开窗后的计算算子而定,并不一定是1。
- 如果GlobalWindows传入windowAll中,那么开窗的stream一定是Non-keyed类型(即DataStream),此时并行度一定为1,无论开窗后并行度设置多少都不生效。
下图表示GlobalWindows在KeyedStream上进行的窗口操作,可以看到,如果开窗后的计算算子有三个分区,那么GlobalWindow窗口也将有三个。
举例
(1)通过window和GlobalWindows定义一个大小为15的滚动计数窗口,并打印算子开窗前后的并行度
DataStream<String> dataStream = env.socketTextStream("localhost", 7777);
DataStream<Integer> mapDataStream