spark checkpoint机制简述

最新推荐文章于 2024-05-18 15:36:39 发布

进击成长

最新推荐文章于 2024-05-18 15:36:39 发布

阅读量4.4k

点赞数

CC 4.0 BY-SA版权

分类专栏： spark经验总结 spark-streaming 文章标签： spark 分布式计算

本文链接：https://blog.csdn.net/xwc35047/article/details/78426770

spark经验总结同时被 2 个专栏收录

23 篇文章

订阅专栏

spark-streaming

3 篇文章

订阅专栏

本文详细介绍了Spark核心的checkpoint机制，包括为何需要checkpoint、何时触发写入、何时读取以及两种具体的实现方式：LocalRDDCheckpointData和ReliableRDDCheckpointData。在Spark Streaming中，每个batch间隔都会触发checkpoint操作。此外，还提及了DirectKafkaInputDStreamCheckpointData在checkpoint中的特殊处理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文主要简述spark checkpoint机制，快速把握checkpoint机制的来龙去脉，关于源码方面可以看参考文章。

###1、Spark core的checkpoint
####1）为什么checkpoint？
分布式计算中难免因为网络，存储等原因出现计算失败的情况，RDD中的lineage信息常用来在task失败后重计算使用，为了防止计算失败后从头开始计算造成的大量开销，RDD会checkpoint计算过程的信息，这样作业失败后从checkpoing点重新计算即可，提高效率。

####2）什么时候写checkpoint数据？

当RDD的action算子触发计算结束后会执行checkpoint。
在spark streaming中每generate一个batch的RDD也会触发checkpoint操作。

####3）什么时候读checkpoint数据？
task计算失败的时候会从checkpoint读取数据进行计算。

####4）checkpoint具体实现有哪些?
其实现分两种：

LocalRDDCheckpointData：临时存储在本地executor的磁盘和内存上（不能仅使用内存，因为内存的eviction机制可能造成data loss）。该实现的特点是比较快，适合lineage信息需要经常被删除的场景（如GraphX），可容忍executor挂掉。
ReliableRDDCheckpointData：存储在外部可靠存储（如hdfs），可以达到容忍driver 挂掉情况。虽然效率没有存储本地高，但是容错级别最好。
如果代码中没有设置checkpoint，则使用local的checkpoint模式，如果设置路径，则使用reliable的checkpoint模式

###2、spark streaming的checkpoint
spark streaming有一个单独的线程CheckpointWriteHandler，每generate一个batch interval的RDD数据都会触发checkpoint操作。

对于kafka的DirectKafkaInputDStreamCheckpointData，实质是重写DStreamCheckpointData的update和restore方法，这样checkpoint的数据就是topic，partition，fromOffset和untilOffset。

参考：
spark源码分析之Checkpoint的过程

文章会同步到公众号，关注公众号，交流更方便：
在这里插入图片描述