20200912:
1:两种区别:
map join:在map端实现文件合并重写setup和map方法 没有reduce
有一个表非常大,而另一个表非常小,以至于小表可以直接存放到内存中
reducejoin:map端实现分隔,reduce端实现文件合并
2:shuuffer的过程:
数据从map端溢出进入环形缓冲区 实现combiner partiton进行分区 key值进行排序
讲解:
1:mapjoin是会利用cachefile接入数据 与map端接入的数据进行逻辑连接 不需要写reducer
reducejoin是map端只完成文件合并 利用相同的关联条件id作为key输出到reducer端
reduce端根据key聚合达到关联的效果
mapjoin和reducejoin
最新推荐文章于 2025-07-04 15:12:58 发布