Topology运行流程及方法调用流程

本文详细介绍了Storm Topology的运行流程,包括代码存储、任务分配、Supervisor节点的角色以及心跳机制。同时阐述了方法调用流程,如组件构造、open与prepare方法的调用,nextTuple与execute的持续运行,以及序列化、反序列化过程。此外,还提及了Spout与Bolt间的ZeroMQ通信和Tuple的成功处理机制。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Topology运行流程

1)提交Topology后,Storm会把代码先存放到Nimbus节点的inbox目录下;之后,把当前Storm运行的配置生成一个stormconf.ser文件放到NImbus节点的stormdist目录中,此目录中同时还有序列化之后的Topology代码文件。

2)在设定Topology关联的Spout和bolt时,可以同时设置当前的spout和bolt的Executor的总和一致。之后,系统根据Worker的数量,尽量将这些Task平均分配到不同的Worker上执行。Worker在哪个Supervisor节点上运行是由Storm本身决定的。

3)在任务分配好之后,Nimbus节点将任务的信息提交到Zookeeper集群,同时在zookeeper集群中有workerbeats,这里存储了当前Topolody所有worker进程的心跳信息。

4)Supervisor节点不断轮询Zookeeper集群,在zookeeper的assignments中保存了所有Topology的任务分配信息、代码存储目录、人物之间的关联关系等,Supervisor通过轮询此节点的内容来领取自己的任务,启动worker进程运行。

5)一个Topology运行之后,不断通过Spout来发送流,通过Bolt来不断处理接收到的流,流是无界的。最后一步会不间断的执行,除非手动结束该Topology。

Topology的方法调用流程

1)每个组件(spout或者bolt)的构造方法和declareOutputFiles方法都只被调用一次

2)open方法和prepare方法被调用多次。在入口函数中设定的setSpout或者setBolt中的并行度参数是指Executor的数量,是负责运行组件中的Task的线程数量,此数量是多少,上述两个方法就会被调用多少次,在每个Executor运行时调用一次。

3)nextTuple方法和execute方法是一直运行的,nextTuple方法不断发射Tuple,Bolt的execute不断接受Tuple进行处理。只有这样不断地运行,才会产生无界的Tuple流,体现实时性。这类似于Java线程

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

薛小布

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值