MapReduce的shuffling理解

MapReduce的Shuffle阶段包括Partition、Sort、Group、Spill和Merge等步骤。Map任务处理输入分片,输出结果在内存中按Partition分发并排序,相同Key的值分组。内存满时数据溢写到磁盘,并在Map结束时合并。Reduce端则通过Copy和Merge阶段,将Map的输出有序地拷贝到本地,准备进行Reduce处理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

MapReduce的shuffling理解

1:官方图解
在这里插入图片描述
在这里插入图片描述

上图主要分为三个阶段:
Map:分割数据 Reduce:聚合数据 重点在Shuffle(面试)
Shuffing包含:{partition spill(sort+combiner) merge}

shuffling具体过程如下:
1.Map端
1**.Input Split分配给Map
2
.Map过程进行处理**,Mapper任务会接收输入分片,然后不断的调用map函数,对记录进行处理。处理完毕后,转换为新的<key,value>输出。
3.Map的输出结果缓存在内存里
4.内存中进行Partition,默认是HashPartitioner(采用取模hash (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks), 目的是将map的结果分给不同的reducer,有几个Partition,就有几个reducer
5.Sort:内存中在Partition结束后,对于不同分区的数据,会按照key进行排序
6.group by对于排序后的<key,value>,会按照key进行分组。如果key相同,那么相同key的<key,value>就被分到一个组中。最终,每个分组会调

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值