Spark RDD转换-CSDN博客

一、RDD转换操作详解
1. distinct去重操作
distinct()用于去除RDD中的重复元素：

rdd1 = sc.parallelize([1, 1, 2, 2, 5])
rdd2 = rdd1.distinct()
print(rdd2.collect()) # [1, 2, 5]

2. union合并操作
union()合并两个RDD，保留所有元素（包括重复）：

rdd1 = sc.parallelize([1, 2, 3, 4])
rdd2 = sc.parallelize([2, 2, 3, 4, 5, 5])
rdd3 = rdd1.union(rdd2)
print(rdd3.collect()) # [1, 2, 3, 4, 2, 2, 3, 4, 5, 5]

3. intersection交集操作
intersection()返回两个RDD共有的元素（自动去重）：

rdd1 = sc.parallelize([1, 2, 3, 4, 4])
rdd2 = sc.parallelize([2, 2, 3, 4, 4, 5])
rdd3 = rdd1.intersection(rdd2)
print(rdd3.collect()) # [2, 4, 3]

4. subtract差集操作
subtract()返回存在于第一个RDD但不在第二个RDD中的元素：

rdd1 = sc.parallelize([1, 2, 3, 4])
rdd2 = sc.parallelize([2, 3, 4, 5, 5])
rdd3 = rdd1.subtract(rdd2)
print(rdd3.collect()) # [1]

5. groupBy分组操作
groupBy()按指定规则分组：

rdd1 = sc.parallelize([1, 1, 2, 3, 5, 8])
rdd2 = rdd1.groupBy(lambda x: x % 3).collect()

for (x, y) in rdd2:
print(x, "=>", list(y))
# 输出：
# 1 => [1, 1]
# 2 => [2, 5, 8]
# 0 => [3]

6. reduceByKey聚合操作
reduceByKey()对相同key的值进行聚合（性能优于groupByKey）：

rdd1 = sc.parallelize([("a", 2), ("b", 3), ("a", 1), ("a", 4)])
rdd2 = rdd1.reduceByKey(lambda x,y : x+y)
print(rdd2.collect()) # [('a', 7), ('b', 3)]

7. sortByKey排序操作
sortByKey()按key排序：

tmp = [('a', 1), ('b', 2), ('1', 3), ('A', 4)]
rdd1 = sc.parallelize(tmp)
print(rdd1.sortByKey().collect()) # [('1', 3), ('A', 4), ('a', 1), ('b', 2)]