spark checkpoint机制简述

本文详细介绍了Spark核心的checkpoint机制,包括为何需要checkpoint、何时触发写入、何时读取以及两种具体的实现方式:LocalRDDCheckpointData和ReliableRDDCheckpointData。在Spark Streaming中,每个batch间隔都会触发checkpoint操作。此外,还提及了DirectKafkaInputDStreamCheckpointData在checkpoint中的特殊处理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文主要简述spark checkpoint机制,快速把握checkpoint机制的来龙去脉,关于源码方面可以看参考文章。

###1、Spark core的checkpoint
####1)为什么checkpoint?
分布式计算中难免因为网络,存储等原因出现计算失败的情况,RDD中的lineage信息常用来在task失败后重计算使用,为了防止计算失败后从头开始计算造成的大量开销,RDD会checkpoint计算过程的信息,这样作业失败后从checkpoing点重新计算即可,提高效率。

####2)什么时候写checkpoint数据?

  • 当RDD的action算子触发计算结束后会执行checkpoint。
  • 在spark streaming中每generate一个batch的RDD也会触发checkpoint操作。

####3)什么时候读checkpoint数据?
task计算失败的时候会从checkpoint读取数据进行计算。

####4)checkpoint具体实现有哪些?
其实现分两种:

  • LocalRDDCheckpointData:临时存储在本地executor的磁盘和内存上(不能仅使用内存,因为内存的eviction机制可能造成data loss)。该实现的特点是比较快,适合lineage信息需要经常被删除的场景(如GraphX),可容忍executor挂掉。
  • ReliableRDDCheckpointData:存储在外部可靠存储(如hdfs),可以达到容忍driver 挂掉情况。虽然效率没有存储本地高,但是容错级别最好。
    如果代码中没有设置checkpoint,则使用local的checkpoint模式,如果设置路径,则使用reliable的checkpoint模式

###2、spark streaming的checkpoint
spark streaming有一个单独的线程CheckpointWriteHandler,每generate一个batch interval的RDD数据都会触发checkpoint操作。

对于kafka的DirectKafkaInputDStreamCheckpointData,实质是重写DStreamCheckpointData的update和restore方法,这样checkpoint的数据就是topic,partition,fromOffset和untilOffset。

参考:
spark源码分析之Checkpoint的过程

文章会同步到公众号,关注公众号,交流更方便:
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值