一、RDD转换操作详解
1. distinct去重操作
distinct()用于去除RDD中的重复元素:
rdd1 = sc.parallelize([1, 1, 2, 2, 5])
rdd2 = rdd1.distinct()
print(rdd2.collect()) # [1, 2, 5]
2. union合并操作
union()合并两个RDD,保留所有元素(包括重复):
rdd1 = sc.parallelize([1, 2, 3, 4])
rdd2 = sc.parallelize([2, 2, 3, 4, 5, 5])
rdd3 = rdd1.union(rdd2)
print(rdd3.collect()) # [1, 2, 3, 4, 2, 2, 3, 4, 5, 5]
3. intersection交集操作
intersection()返回两个RDD共有的元素(自动去重):
rdd1 = sc.parallelize([1, 2, 3, 4, 4])
rdd2 = sc.parallelize([2, 2, 3, 4, 4, 5])
rdd3 = rdd1.intersection(rdd2)
print(rdd3.collect()) # [2, 4, 3]
4. subtract差集操作
subtract()返回存在于第一个RDD但不在第二个RDD中的元素:
rdd1 = sc.parallelize([1, 2, 3, 4])
rdd2 = sc.parallelize([2, 3, 4, 5, 5])
rdd3 = rdd1.subtract(rdd2)
print(rdd3.collect()) # [1]
5. groupBy分组操作
groupBy()按指定规则分组:
rdd1 = sc.parallelize([1, 1, 2, 3, 5, 8])
rdd2 = rdd1.groupBy(lambda x: x % 3).collect()
for (x, y) in rdd2:
print(x, "=>", list(y))
# 输出:
# 1 => [1, 1]
# 2 => [2, 5, 8]
# 0 => [3]
6. reduceByKey聚合操作
reduceByKey()对相同key的值进行聚合(性能优于groupByKey):
rdd1 = sc.parallelize([("a", 2), ("b", 3), ("a", 1), ("a", 4)])
rdd2 = rdd1.reduceByKey(lambda x,y : x+y)
print(rdd2.collect()) # [('a', 7), ('b', 3)]
7. sortByKey排序操作
sortByKey()按key排序:
tmp = [('a', 1), ('b', 2), ('1', 3), ('A', 4)]
rdd1 = sc.parallelize(tmp)
print(rdd1.sortByKey().collect()) # [('1', 3), ('A', 4), ('a', 1), ('b', 2)]