mapjoin和reducejoin

本文深入探讨了MapReduce框架下两种重要的连接操作——MapJoin和ReduceJoin的区别及工作原理。MapJoin适用于一个小表和一个大表的场景,通过将小表加载到内存中,在Map阶段完成连接操作,无需Reduce阶段。而ReduceJoin则在Map阶段完成数据的初步处理,然后在Reduce阶段根据相同的关联条件完成数据的聚合和连接。文章还详细解释了Shuffle过程中的数据溢出、环形缓冲区使用、Combiner和Partition的作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

20200912:
1:两种区别:
map join:在map端实现文件合并重写setup和map方法 没有reduce
有一个表非常大,而另一个表非常小,以至于小表可以直接存放到内存中
reducejoin:map端实现分隔,reduce端实现文件合并
2:shuuffer的过程:
数据从map端溢出进入环形缓冲区 实现combiner partiton进行分区 key值进行排序
讲解:
1:mapjoin是会利用cachefile接入数据 与map端接入的数据进行逻辑连接 不需要写reducer
reducejoin是map端只完成文件合并 利用相同的关联条件id作为key输出到reducer端
reduce端根据key聚合达到关联的效果

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值