mapjoin和reducejoin

最新推荐文章于 2025-07-04 15:12:58 发布

桃小酷

最新推荐文章于 2025-07-04 15:12:58 发布

阅读量1.4k

点赞数

CC 4.0 BY-SA版权

本文链接：https://blog.csdn.net/Taoxiaoku/article/details/108614049

本文深入探讨了MapReduce框架下两种重要的连接操作——MapJoin和ReduceJoin的区别及工作原理。MapJoin适用于一个小表和一个大表的场景，通过将小表加载到内存中，在Map阶段完成连接操作，无需Reduce阶段。而ReduceJoin则在Map阶段完成数据的初步处理，然后在Reduce阶段根据相同的关联条件完成数据的聚合和连接。文章还详细解释了Shuffle过程中的数据溢出、环形缓冲区使用、Combiner和Partition的作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

20200912：
1：两种区别：
map join：在map端实现文件合并重写setup和map方法没有reduce
有一个表非常大，而另一个表非常小，以至于小表可以直接存放到内存中
reducejoin：map端实现分隔，reduce端实现文件合并
2：shuuffer的过程：
数据从map端溢出进入环形缓冲区实现combiner partiton进行分区 key值进行排序
讲解：
1：mapjoin是会利用cachefile接入数据与map端接入的数据进行逻辑连接不需要写reducer
reducejoin是map端只完成文件合并利用相同的关联条件id作为key输出到reducer端
reduce端根据key聚合达到关联的效果