pyspark --Action算子

qq_35482604

于 2022-01-25 10:57:49 发布

阅读量1k

点赞数

CC 4.0 BY-SA版权

文章标签： spark

本文链接：https://blog.csdn.net/qq_35482604/article/details/122654267

本文详细介绍了RDD的基本操作，包括countByKey、reduce、fold等转换操作，以及take、takeOrdered等动作操作。通过具体实例展示了如何使用这些操作处理数据，并探讨了groupByKey与reduceByKey的区别。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

countByKey
reduce
fold
first
take 取前n个(位置上)
top

在这里插入图片描述
7.takeSample

7. takeOrdered

    rdd = sc.parallelize([1,3,2,4,7,9,6],1)
    print(rdd.takeOrdered(3))  # 1,2,3
    print(rdd.takeOrdered(3,lambda x:-x)) # 9,7,6

8.foreach
8. saveAsTextFile
在这里插入图片描述
9. foreachPartition

    rdd = sc.parallelize([1,3,2,4,7,9,6],3)
    def rid10(data):
        print("-------------------")
        result = list()
        for i in data:
            result.append(i*10)
        print(result)
    
    rdd.foreachPartition(rid10)

groupByKey与reduceByKey

在这里插入图片描述

总结：

partitionBy