Spark操作——控制操作

最新推荐文章于 2023-12-05 07:30:00 发布

原创最新推荐文章于 2023-12-05 07:30:00 发布 · 324 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark #持久化 #缓存 #cache #persist

Spark学习笔记专栏收录该内容

10 篇文章

订阅专栏

本文深入探讨了Spark中RDD的持久化机制，详细解释了cache()和persist()方法的区别，以及如何通过不同的StorageLevel来优化内存使用和数据持久化策略。文章还提供了示例代码，展示了在不同情况下如何选择合适的持久化级别。

cache(): RDD[T]
persist(): RDD[T]
persist(level: StorageLevel): RDD[T]

cache和persist操作都是对RDD进行持久化，其中cache是persist采用MEMORY_ONLY存储级别时的一个特例，

scala> var rdd = sc.textFile("/Users/lyf/Desktop/data.txt")
rdd: org.apache.spark.rdd.RDD[String] = /Users/lyf/Desktop/data.txt MapPartitionsRDD[57] at textFile at <console>:24

scala> rdd.cache()
res38: org.apache.spark.rdd.RDD[String] = /Users/lyf/Desktop/data.txt MapPartitionsRDD[57] at textFile at <console>:24

// 第一次计算行数，这里只能从本地文件读取数据，不能从内存
scala> rdd.count()
res39: Long = 4

// 第二次计算，则是从内存中读取数据
scala> rdd.count()
res40: Long = 4

scala> var rdd = sc.textFile("/Users/lyf/Desktop/data.txt")
rdd: org.apache.spark.rdd.RDD[String] = /Users/lyf/Desktop/data.txt MapPartitionsRDD[59] at textFile at <console>:24

scala> rdd.persist()
res41: org.apache.spark.rdd.RDD[String] = /Users/lyf/Desktop/data.txt MapPartitionsRDD[59] at textFile at <console>:24

scala> rdd.count()
res42: Long = 4

scala> rdd.count()
res43: Long = 4

StorageLevel有以下几种

级别	使用空间	CPU时间	是否在内存	是否在磁盘	备注
MEMORY_ONLY	高	低	是	否	数据只放在内存中
MEMORY_ONLY_2	高	低	是	否	持久化2份数据
MEMORY_ONLY_SER	低	高	是	否	数据序列化后存人内存
MEMORY_ONLY_SER_2	低	高	是	否	持久化2份数据
MEMORY_AND_DISK	高	中	部分	部分	如果数据在内存中放不下，则溢写到磁盘
MEMORY_AND_DISK_2	高	中	部分	部分	持久化2份数据
MEMORY_AND_DISK_SER	低	高	部分	部分	如果数据在内存中放不下，则溢写到磁盘。内存中存放序列化后的数据
MEMORY_AND_DISK_SER_2	低	高	部分	部分	持久化2份数据
DISK_ONLY	低	高	否	是	数据只存入磁盘
DISK_ONLY_2	低	高	否	是	持久化2份数据

unpersist(): RDD[T]

与persist相反，该操作可以手动将持久化的数据从缓存中移除

scala> var rdd = sc.textFile("/Users/lyf/Desktop/data.txt")
rdd: org.apache.spark.rdd.RDD[String] = /Users/lyf/Desktop/data.txt MapPartitionsRDD[59] at textFile at <console>:24

scala> rdd.persist()
res41: org.apache.spark.rdd.RDD[String] = /Users/lyf/Desktop/data.txt MapPartitionsRDD[59] at textFile at <console>:24

scala> rdd.unpersist()
res44: org.apache.spark.rdd.RDD[String] @scala.reflect.internal.annotations.uncheckedBounds = /Users/lyf/Desktop/data.txt MapPartitionsRDD[59] at textFile at <console>:24

参考:

[1] 郭景瞻. 图解Spark:核心技术与案例实战[M]. 北京:电子工业出版社, 2017.