spark去重优化

本文围绕Spark任务中的去重方法展开。测试发现,dataframe的distinct方法在大量数据去重时效率低下,如对16260037条数据去重userid花了约20分钟。还尝试了groupByKey去重,速度稍好;而dataframe.collect().distinct.toList方法去重速度最快,仅需几分钟。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在spark的任务中,用的较多的去重方法是dataframe的distinct,笔者在测试中发现这种方法其实很次的,尤其是在大量数据的去重的过程中。

测试数据的数据结构如下,主要是userid,其他字段随意。

userid:String, column1:String

数据大小
在这里插入图片描述

方法一,使用dataframe的distinct去重:

df.selectExpr($"userid").distinct()

这种方法是最简单而且个人认为效率是最次的,当时测试了16260037条数据,对用户id去重,其实去重后的userid也就27个,即使是分布式执行任务,去重这步也花了20分钟左右。

方法二,然后笔者脑回路清奇,尝试使用groupByKey去重:

    val users = df.rdd.map(row =>{
      (row.getAs("userid").toString, 1)
    }).groupByKey().map(line =>{
      (line._1, line._2.sum)
    }).collect()

拿到的是是一个Array[(String, Int)],速度稍微好一点,但也就那样吧。

方法三,还是脑回路清奇,想到dataframe.collect().distinct.toList

val users = df.selectExpr("userid").collect().distinct.toList

这是先吧userid这一列用collect()转成数组,类型为Array[Row],再使用distinct去重,最后根据个人喜好 业务需求将Array[Row]转成List[Row]。
这个去重速度是最快的,也就几分钟的事。

评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值