Flink源码解析系列--SubtaskStateMapper枚举类

原创已于 2023-11-01 14:55:46 修改 · 6.3k 阅读

文章标签：

#flink #java #大数据

于 2022-03-14 15:41:41 首次发布

Flink 专栏收录该内容

19 篇文章 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

本文详细介绍了Flink中SubtaskStateMapper的六种策略，包括ARBITRARY、ROUND_ROBIN、FIRST、FULL、RANGE和UNSUPPORTED。在任务并行度变化时，这些策略定义了如何将旧的subtask状态分配给新的subtask。例如，ROUND_ROBIN实现数据的轮询分配，而FIRST则将所有旧subtask的数据发送到第一个新的subtask。RANGE策略通过KeyGroupRange进行索引分配。理解这些策略对于优化Flink作业的恢复和性能至关重要。

本文的Flink源码版本为: 1.15-SNAPSHOT，读者可自行从Github clone.

假如 Flink 任务某个算子的并行度为4，该算子的状态做了 checkpoint 后任务停止。该算子的并行度调整为2后重新启动任务，新 task 中的各个 subtask 需要从 checkpoint 中哪些旧的 subtask 中获取数据呢？

Flink 提供了 SubtaskStateMapper 枚举类来定义上述行为。

其核心方法为:

public abstract int[] getOldSubtasks(
		int newSubtaskIndex, int oldNumberOfSubtasks, int newNumberOfSubtasks);

其中，newSubtaskIndex 为新 subtask 的索引，oldNumberOfSubtasks 为旧 subtask 的数量，newNumberOfSubtasks 为新 subtask 的数量，返回值为旧 subtask 索引的数组。

SubtaskStateMapper 提供了 ARBITRARY、ROUND_ROBIN、FIRST、FULL、RANGE、UNSUPPORTED 等6类实现。

ARBITRARY

ARBITRARY {
	@Override
	public int[] getOldSubtasks(
			int newSubtaskIndex, int oldNumberOfSubtasks

了解本专栏

订阅专栏解锁全文

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

打酱油的葫芦娃

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

订阅专栏

Flink源码解析系列--StreamPartitioner(流分区器)

打酱油的葫芦娃

03-15

6148

本文的Flink源码版本为: 1.15-SNAPSHOT，读者可自行从Github clone. StreamPartitioner抽象类 @Internal public abstract class StreamPartitioner<T> implements ChannelSelector<SerializationDelegate<StreamRecord<T>>>, Serializable { private stat.

flink重温笔记（五）：Flink 流批一体 API 开发——物理分区（下）

m0_60732994的博客

02-16

2245

前言：今天是学习 flink 的第五天啦！主要学习了物理分区较难理解的部分，在这个部分的三个分区的学习中， rescale partition 和 forward partition 其原理可以归类 pointwise 模式，其他的 partition 其原理可以归类 all_to_all 模式，而比较有趣的是 custom partitioning，这个可以进行根据值的输入进行自定义分区。

参与评论您还未登录，请先登录后发表或查看评论

Flink API - 分布式转换算子

weixin_44760145的博客

02-19

782

Flink 分布式转换算子、Random、Round-Robin、Rescale、Broadcast，StreamPartitioner、KeyGroupStreamPartitioner、RebalancePartitioner、RescalePartitioner、GlobalPartitioner、ShufflePartitioner、ForwardPartitioner、BroadcastPartitioner、SubtaskStateMapper 源码解析

Flink 自定义维表

文报的博客

05-07

3640

写这个博客主要是看了袋鼠云的flinkStreamSQL git地址:https://github.com/DTStack/flinkStreamSQL 自己还往上提交了kudu的sink和side 第一次commit到github上面还是很开心的。这里重点说的是flinkStreamSQL是如何完成side的，主要其实是两种缓存方案LRU和ALL。这里忽略所有的sql解析注册等等，单纯的...

Flink1.15源码阅读——flink-annotations

京河小蚁的博客

07-19

806

本文将详细介绍下flink中的自定义注解模块，了解flink注解的作用与使用。主要围绕flink源码中的 flink-annotations模块，与docs 相关的注解有@ConfigGroup和@ConfigGroups , 通常作用于配置类上；@Documentation.OverrideDefault、@Documentation.Section、@Documentation.TableOption、@Documentation.SuffixOption,@Documentation.ExcludeF

Flink源码解析系列--DataStream JDBC-Sink

打酱油的葫芦娃

02-23

9842

本文的Flink源码版本为: 1.15-SNAPSHOT，读者可自行从Github clone. 进行源码分析之前，首先看一下Flink DataStream JDBC-Sink的官方示例: StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); env .fromElements(...) .addSink(JdbcSink.sink( "insert into books (.

Flink源码解析系列--StreamExecutionEnvironment类

打酱油的葫芦娃

03-31

1万+

本文的Flink源码版本为: 1.15-SNAPSHOT，读者可自行从Github clone. Flink 程序看起来像一个转换 DataStream 的常规程序。每个程序由相同的基本部分组成：获取一个执行环境（execution environment）；加载/创建初始数据；指定数据相关的转换；指定计算结果的存储位置；触发程序执行。 StreamExecutionEnvironment 是所有 Flink 程序的基础。创建你可以使用 StreamExecutionEnvironme.

Flink源码解析系列--JdbcDialect接口

打酱油的葫芦娃

03-09

6343

本文的Flink源码版本为: 1.15-SNAPSHOT，读者可自行从Github clone. 虽然不同的关系型数据库均遵循一定的统一标准，但各自的Driver实现，增删改查的SQL语法等可能略有不同。就跟中国话也有各地区的方言一样，数据库也有属于自己的"方言"，即JdbcDialect。在Flink中，JdbcDialect被定义为1个接口。 public interface JdbcDialect extends Serializable { // 方言名称 String di.

Flink源码解析系列--Timer定时器

打酱油的葫芦娃

03-26

8538

Timer（定时器）是 Flink Streaming API 提供的用于感知并利用 Processing Time/Event Time 变化的机制。Ververica blog上给出的描述如下： Timers are what make Flink streaming applications reactive and adaptable to processing and event time changes. 对于普通用户来说，最常见的显式利用 Timer 的地方就是 KeyedProcessF

Generator做为状态机与普通状态机的区别及实现

weixin_46816740的博客

09-07

2002

状态机(有限状态交替变化)有限状态自动机，每运行一次改变一次状态什么是状态机？以操作系统中的任务调度为例来说明什么是状态机。在操作系统的任务调度中经常见到状态机，其作用是根据任务的状态和当前资源条件来改变任务的状态。任务的状态和资源的条件就构成了一个状态机，参见下图：普通状态机：要依赖于外部的变量，所以导致状态不安全代码实现： var flag=true; function clock(){ if(flag){ console.log("开",flag)

flink-任务划分：task和subTask

DCHAO的博客

10-19

2136

【Flink】详解Flink的八种分区

pcx171的博客

01-26

5841

本文详细介绍乐Flink中分区API以及底层分区器并给出图例，从源码角度分析各个分区器的原理，最后介绍了分区器的使用源码。

Flink 1.12.2 源码浅析 : Transformation 浅析

张伯毅的专栏

04-14

1416

Flink知识点或面试题

不爱吃鱼的馋猫

12-06

1554

Flink 1 简单介绍一下 Flink Flink 是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。并且 Flink 提供了数据分布、容错机制以及资源管理等核心功能。Flink提供了诸多高抽象层的API以便用户编写分布式任务： DataSet API，对静态数据进行批处理操作，将静态数据抽象成分布式的数据集，用户可以方便地使用Flink提供的各种操作符对分布式数据集进行处理，支持Java、Scala和Python。 DataStream API，对数据流进行流处理操作，将流式

Flink核心概念

热门推荐

ChengYanan的博客

02-04

1万+

我们在学习Flink时，经常会听到 task，slot，线程以及并行度这几个概念，对于初学者来说，这几个概念关系以及它们与系统内存，CPU之间的关系经常搞不清楚，下面我们就通过这篇文章来弄清楚这些概念与关系。并行度特定算子的子任务（subtask）的个数称之为并行度（parallel），一般情况下，一个数据流的并行度可以认为是其所有算子中最大的并行度。Flink中每个算子都可以在代码中通过.setParallelism(n)来重新设置并行度。而并行执行的subtask要发布到不同的slot中去执行。 T

Flink系列：在Flink集群提交任务、查看日志、查看输出结果详细步骤

NIO4444

06-06

9447

flink学习（加餐）——job任务状态变化

Yohohaha的博客

12-03

4184

我们来看一下flink官网的图：光看图就头晕了，我们可以来整理一下。首先flink job任务状态总共有： Created Running Finished Failed Canceled Failing Canceling Restarting Suspended 根据个人理解，我们可以把这些状态分为四大类：起始态中间态最终态过渡态起始态表示任务启动时的状态，中间态表示任务运行时的状态，最终态表示任务最后的状态，过渡态表示任务在上述这些状态转化时中间过渡的状态。这样我们就把九个状

flink的状态管理（state manage）与可查询状态

hyy_blog

05-07

1467

1.什么是状态管理 2.可查询状态有什么应用场景？？？？什么是状态管理：https://blog.csdn.net/xorxos/article/details/80877266 可查询状态引入可查询状态的好处将有助于消除对键值存储（key-value stores）之类的外部系统的依赖，这些键值存储在实践中经常是瓶颈，正如上图所示。将Flink内部的状态暴露给外部实际...

Flink之状态之状态获取

weixin_30439067的博客

08-01

2028

1.什么是状态对于任何一个操作，都可以被看成是一个函数，比如y=f(x)，如果对于同一个x的任何一次输入，得到的y都是相同的，则可以认为这个函数是无状态，否则，这个函数就是有状态的。Flink的一大特点就在于对状态的支持。 2.Keyed State和Operator State Keyed State Keyed State正如其名，总是和具体的key相关联，也只能在keyedStre...