Spark算子详解：Transformation与Action操作

DOCX文件

下载需积分: 50 | 47KB | 更新于2024-07-18 | 60 浏览量 | 举报 1 收藏

立即下载

"Spark算子的详细使用方法涵盖了Spark中的Transformation和Action两类算子，以及它们的细分类型，包括Value型、Key-Value型的Transformation算子和Action算子。核心概念是RDD（弹性分布式数据集），它是Spark计算的基础单元。RDD通过Partition列表存储数据，可以通过Block编号进行持久化恢复。本文档还提到了一些具体的算子如map、flatMap、keyBy和glom等的操作方式。" 在Spark中，算子是处理数据的关键工具，它们分为两种主要类型：Transformation和Action。 1. Transformation变换/转换算子： - Transformation算子不立即执行，它们是延迟计算的，只有当遇到Action算子时才会触发实际的计算过程。 - Value数据类型的Transformation算子：如`map`，它接受一个函数，将该函数应用到RDD的每个元素上，返回一个新的RDD。 - Key-Value数据类型的Transformation算子：例如`flatMap`，它与`map`类似，但允许将一个元素映射为多个元素，最后合并所有分区的输出。`keyBy`则用于创建PairRDD，将数据项通过指定函数转换为键值对。 - `glom()`算子将每个分区的所有元素聚合到一个数组中，形成新的RDD，这样每个数组元素代表一个分区的所有内容。 - `mapValues(func)`仅作用于PairRDD的值，保持键不变，对值应用给定函数。 2. Action行动算子： - Action算子会触发Spark提交Job作业，并将结果输出到Spark系统之外，例如存储或显示。 - 这些算子包括计算结果并返回给驱动程序的`count`、`collect`，或者将数据写入外部系统的`saveAsTextFile`等。 RDD（弹性分布式数据集）是Spark的核心抽象，它是一个不可变、分区的数据集，能够在集群中的多个节点上并行处理。每个RDD由多个Partition组成，Partition是数据的基本单位，可以通过Block编号在存储介质中定位。RDD的这种特性使得它能够支持高效的数据容错和内存优化。在使用Spark时，掌握不同类型的算子以及它们的工作原理至关重要，这有助于设计高效的分布式计算任务。例如，合理地使用Transformation和Action可以优化计算流程，避免不必要的数据传输，提高整体性能。同时，理解RDD的内部结构也有助于更好地管理数据存储和恢复。

// 初始值为 5 的情况

// 获取分区 0 获取最大值为 (5, 1, 2, 3) = 5

// 获取分区 1 获取最大值为 (5, 4, 5, 6) = 6

// 最后的累加结果为 5 + 5 + 6 = 16

// 最后的累加结果必须携带初始值

z.aggregate(5)(math.max(_, _), _ + _)

结果： Int = 16

val z = sc.parallelize(List("a","b","c","d","e","f"),2)

def myfunc(index: Int, iter: Iterator[(String)]) : Iterator[String] = {

iter.toList.map(x => "[partID:" + index + ", val: " + x + "]").iterator

}

z.mapPartitionsWithIndex(myfunc).collect

结果：Array[String] = Array([partID:0, val: a], [partID:0, val: b], [partID:0, val: c], [partID:1,

val: d], [partID:1, val: e], [partID:1, val: f])

z.aggregate("")(_ + _, _+_)

结果：String = abcdef

z.aggregate("x")(_ + _, _+_)

结果：String = xxdefxabc

val z = sc.parallelize(List("12","23","345","4567"),2)

z.aggregate("")((x,y) => math.max(x.length, y.length).toString, (x,y) => x + y)

结果：String = 42

z.aggregate("")((x,y) => math.min(x.length, y.length).toString, (x,y) => x + y)

结果： String = 11

val z = sc.parallelize(List("12","23","345",""),2)

z.aggregate("")((x,y) => math.min(x.length, y.length).toString, (x,y) => x + y)

结果： String = 10

aggregateByKey(func1,func2)

作用同上，只是对相同的 key 进行操作

val pairRDD = sc.parallelize(List( ("cat",2), ("cat", 5), ("mouse", 4),("cat", 12), ("dog", 12),

("mouse", 2)), 2)

def myfunc(index: Int, iter: Iterator[(String, Int)]) : Iterator[String] = {

iter.toList.map(x => "[partID:" + index + ", val: " + x + "]").iterator

}

pairRDD.mapPartitionsWithIndex(myfunc).collect

结果：Array[String] = Array([partID:0, val: (cat,2)], [partID:0, val: (cat,5)], [partID:0, val:

剩余23页未读，继续阅读

THECHINALION

粉丝: 0

Spark算子详解：Transformation与Action操作

25个经典Spark算子的JAVA实现

transformation、action算子代码示例

Spark五大大算子深度解析.md

spark算子

Spark算子.pdf

spark算子.docx

spark算子等等等等等等

Java Spark算子：distinct

Java spark算子

最新资源