spark去重优化

最新推荐文章于 2023-12-27 18:06:36 发布

luohaifang

最新推荐文章于 2023-12-27 18:06:36 发布

阅读量3.5k

点赞数 4

CC 4.0 BY-SA版权

分类专栏：大数据文章标签： spark去重去重优化

本文链接：https://blog.csdn.net/luohaifang/article/details/109819183

大数据专栏收录该内容

10 篇文章

订阅专栏

本文围绕Spark任务中的去重方法展开。测试发现，dataframe的distinct方法在大量数据去重时效率低下，如对16260037条数据去重userid花了约20分钟。还尝试了groupByKey去重，速度稍好；而dataframe.collect().distinct.toList方法去重速度最快，仅需几分钟。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在spark的任务中，用的较多的去重方法是dataframe的distinct，笔者在测试中发现这种方法其实很次的，尤其是在大量数据的去重的过程中。

测试数据的数据结构如下，主要是userid，其他字段随意。

userid:String, column1:String

数据大小
在这里插入图片描述

方法一，使用dataframe的distinct去重：

df.selectExpr($"userid").distinct()

这种方法是最简单而且个人认为效率是最次的，当时测试了16260037条数据，对用户id去重，其实去重后的userid也就27个，即使是分布式执行任务，去重这步也花了20分钟左右。

方法二，然后笔者脑回路清奇，尝试使用groupByKey去重：

    val users = df.rdd.map(row =>{
      (row.getAs("userid").toString, 1)
    }).groupByKey().map(line =>{
      (line._1, line._2.sum)
    }).collect()

拿到的是是一个Array[(String, Int)]，速度稍微好一点，但也就那样吧。

方法三，还是脑回路清奇，想到dataframe.collect().distinct.toList

val users = df.selectExpr("userid").collect().distinct.toList

这是先吧userid这一列用collect()转成数组，类型为Array[Row]，再使用distinct去重，最后根据~~个人喜好~~ 业务需求将Array[Row]转成List[Row]。
这个去重速度是最快的，也就几分钟的事。