Spark 自己实现分箱逻辑遇到的坑

枇杷鹭

已于 2022-02-10 20:03:36 修改

阅读量768

点赞数 1

CC 4.0 BY-SA版权

分类专栏： Spark 文章标签： java 数据库 cpu 大数据 spark

于 2021-07-21 09:18:23 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42815609/article/details/118958679

博主通过一个生动的小学班级身高排序的例子，解释了在Spark中处理大数据时面临的内存限制和IO操作效率问题。最初尝试逐个班级处理，耗时过长。后来尝试扩大内存容量，但遇到教室（内存）崩溃的问题。最终，博主采用分批处理多个班级，显著提高了效率，将原本的15小时优化到12分钟。文章分享了Spark大数据处理的调优思路和遇到的挑战。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

周一我就有个困惑，还写成文章了：如何从 Spark 的 DataFrame 中取出具体某一行，里面提了自己猜想的几种解决方案。

没想到这么快就要面对这个问题了，我用小孩子都听得懂的例子描述一下我在干什么。

简单生动小例子

说一所小学有好几个班级，现在要 以班级为单位 给孩子们按照身高进行排序，并且记录下来。

问题就是，全学校只有一条测身高的尺子，而且因为孩子们过于顽劣等主客观因素，测量身高、按身高排序、登记身高这些过程，必须在一间教室里进行。 没有被轮到测量的班级，就在操场活动。

而最让老师感到头疼的是：组织孩子们进教室这一过程。测身高呀、记录呀、排序呀，都用不了几分钟，唯独让孩子们进教室这件事，要让老师们使出九牛二虎之力，而且特别耗时。

孩子们快进教室吧，求求了！

好消息是，组织一个班进教室，和组织一百个班同时进教室，花费的时间差不多。 因此，一般来讲，老师都是直接把所有学生全部叫进这间教室来的。

但是我面临一个棘手的情况。我的操场上，有 2200 个班级，每个班级有 16 万人。我的教室也很大，但是肯定装不下 2200 × 16 万人 ≈ 3 亿人。

于是我就想着，我一个班一个班测，这是最直观的、最好管理的。

“来，一班，进教室！”…花了十几分钟才都叫进来…花了几十秒就都测好了、排好序了、记录好了…“好了！一班出去！二班进来！”…

如此往复，等到了第 2200 个班的时候，已经过去了快一个月…

内位看官讲话了：你把他们都叫进来不就行了？反正前面有条件：『组织一个班进教室，和组织一百个班同时进教室，花费的时间差不多。』

有道理，这就是我上午在做的事：把教室修大一点。

我请了土地局的人、请了工程师、请了施工队，尝试了各种方法，每次费尽力气修好（能容纳 5 亿人那种），教室就因为各种原因塌了。

唉！我计算过，理论上明明可以建成的呀！

我就不甘心，就一直尝试，反反复复，然后几小时过去了。

这是又有位看官讲话了：别修教室了，你把孩子们分成几批，一次叫几个班进教室不就得了！

有道理，可是这样原有的管理逻辑需要改一部分，着实花费了我一些时间。此外，还花了大量时间 debug 。

我初步设置为 100 班为一批进教室：

原来我需要做『喊孩子们进教室』这件事 2200 次（每个班含一次）
现在我只做『喊孩子们进教室』这件事 22 次，你看看，是不是快了 100 倍

对照解释

上面其实就是我做的事的简化版，其中：

「教室」就是计算机的「内存」，你得把数据拿进内存才能对其进行排序什么的计算
「进教室」就是计算机的「IO操作」，计算机的内存很贵，一般的电脑都是 8G、16G 这种，而硬盘相对便宜，有

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。