Spark RDD转换

一、RDD转换操作详解
1. distinct去重操作
distinct()用于去除RDD中的重复元素:

rdd1 = sc.parallelize([1, 1, 2, 2, 5])
rdd2 = rdd1.distinct()
print(rdd2.collect())  # [1, 2, 5]

2. union合并操作
union()合并两个RDD,保留所有元素(包括重复):

rdd1 = sc.parallelize([1, 2, 3, 4])
rdd2 = sc.parallelize([2, 2, 3, 4, 5, 5])
rdd3 = rdd1.union(rdd2)
print(rdd3.collect())  # [1, 2, 3, 4, 2, 2, 3, 4, 5, 5]

3. intersection交集操作
intersection()返回两个RDD共有的元素(自动去重):

rdd1 = sc.parallelize([1, 2, 3, 4, 4])
rdd2 = sc.parallelize([2, 2, 3, 4, 4, 5])
rdd3 = rdd1.intersection(rdd2)
print(rdd3.collect())  # [2, 4, 3]

4. subtract差集操作
subtract()返回存在于第一个RDD但不在第二个RDD中的元素:

rdd1 = sc.parallelize([1, 2, 3, 4])
rdd2 = sc.parallelize([2, 3, 4, 5, 5])
rdd3 = rdd1.subtract(rdd2)
print(rdd3.collect())  # [1]

5. groupBy分组操作
groupBy()按指定规则分组:

rdd1 = sc.parallelize([1, 1, 2, 3, 5, 8])
rdd2 = rdd1.groupBy(lambda x: x % 3).collect()

for (x, y) in rdd2:
    print(x, "=>", list(y))
# 输出:
# 1 => [1, 1]
# 2 => [2, 5, 8]
# 0 => [3]

6. reduceByKey聚合操作
reduceByKey()对相同key的值进行聚合(性能优于groupByKey):

rdd1 = sc.parallelize([("a", 2), ("b", 3), ("a", 1), ("a", 4)])
rdd2 = rdd1.reduceByKey(lambda x,y : x+y)
print(rdd2.collect())  # [('a', 7), ('b', 3)]

7. sortByKey排序操作
sortByKey()按key排序:

tmp = [('a', 1), ('b', 2), ('1', 3), ('A', 4)]
rdd1 = sc.parallelize(tmp)
print(rdd1.sortByKey().collect())  # [('1', 3), ('A', 4), ('a', 1), ('b', 2)]

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值