【Spark实战系列】sparkstreaming 中 UpdateStateByKey 和 mapWithState 算子的使用(spark的状态管理)

最新推荐文章于 2022-08-12 18:13:28 发布

JasonLee实时计算

最新推荐文章于 2022-08-12 18:13:28 发布

阅读量2.4k

点赞数 3

CC 4.0 BY-SA版权

分类专栏： Spark 实战系列 kafka 文章标签： spark sparkstreaming updateStateByKey mapWithState 状态管理

本文链接：https://blog.csdn.net/xianpanjia4616/article/details/82729724

Spark 实战系列同时被 2 个专栏收录

41 篇文章 ¥69.90 ¥99.00

订阅专栏

超级会员免费看

kafka

10 篇文章

订阅专栏

本文介绍了SparkStreaming中的状态管理工具，重点讨论了UpdateStateByKey和mapWithState算子的使用。UpdateStateByKey允许维护任意状态并根据新信息持续更新，而mapWithState在无新数据输入时不会返回之前状态，效率较高。推荐使用mapWithState，并强调两者都需要配合checkpoint来保存状态。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

今天我们主要来说一下sparkstreaming带状态的操作,updateStateByKey和mapWithState这两个方法,先看一下官网的介绍:

UpdateStateByKey操作

该updateStateByKey操作允许您在使用新信息持续更新时保持任意状态。要使用它，您必须执行两个步骤。
   定义状态 - 状态可以是任意数据类型。
   定义状态更新功能 - 使用函数指定如何使用先前状态和输入流中的新值更新状态。
   在每个批处理中，Spark都会对所有现有密钥应用状态更新功能，无论它们是否在批处理中都有新数据。如果更新函数返回，None则将删除键值对。

mapWithState

mapWithState：也是用于全局统计key的状态，但是它如果没有数据输入，便不会返回之前的key的状态，有一点增量的感觉。效率更高，建议使用这个.

下面看下具体的代码:

package spark

import kafka.PropertiesScalaUtils
import org.apache.kafka.common.serialization.StringDeserializer
import org.apache.log4j.{Level, Logger}
import org.apache.spark.S