Map和Reduce任务的优化

最新推荐文章于 2024-04-26 22:13:27 发布

原创最新推荐文章于 2024-04-26 22:13:27 发布

· 1.5k 阅读

1 ·

版权

大数据与机器学习专栏收录该内容

13 篇文章

订阅专栏

本文介绍MapReduce计算模型的六大优化策略：任务调度、数据预处理、合理设置InputSplit大小、调整map/reduce任务数量、利用combine函数及压缩技术，帮助提升大数据处理效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

编程总是围绕着两个问题：“如何完成这个任务”和“如何能让程序运行得更快”

因此，相对应的MapReduce计算模型的优化也就集中在两个方面：一是计算性能方面的优化；二是I/O操作方面的优化

1、任务调度

两个方面的优化：一是计算方面：Hadoop总会先将任务分配给空闲的机器，使所有的任务能公平地分享系统资源；二是I/O方面：Hadoop会尽量将map任务分配给InputSplit所在的机器，以减少网络I/O的消耗。（分配的就近原则）

2、数据预处理和InputSplit的大小

2.1.原因：MapReduce擅长处理少量的大数据，而在处理大量的小数据时，性能要逊色很多。

2.2.优化措施：在提交MapReduce任务之前可以对数据进行一次预处理，将数据合并以提高执行效率（很有效）。
进一步优化：可以考虑map任务的运行时间，当一个map任务只需要运行几秒钟就可以结束时，就需要考虑是否应该给它分配更多的数据了。（一分钟左右比较合适）——设置方法：可通过设置map的输入数据大小来调节map的运行时间。A、合理地设置block块的大小（在FileInputFormat中，hadoop会在处理每个block后将其作为一个InputSplit）；B、合理地设置map任务的数量。

3、map和reduce任务的数量

3.1.定义：map任务槽和reduce任务槽就是这个集群能够同时运行的map/reduce任务的最大数量。（比如在一个具有1200台机器的集群中，设置每台机器最多可以同时运行10个map和5个reduce，那么这个集群的map任务槽就是12000，reduce任务槽是6000。）

3.2.设置reduce数量

（map数量设置主要考虑它的运行时间）

设置reduce的数量时只需要参考任务槽的设置。一般来说reduce任务的数量应该是reduce任务槽的0.95倍或是1.75倍。

0.95倍易于找到空闲机器处理失败的任务。1.75则可以使负载更加均衡（执行速度快的机器可以获得更多的任务），以提高任务的处理速度。

4、combine函数
4.1.作用：用于在本地合并数据。例如，在单词计数中，combine函数先计算出在这个block中某个单词的个数，再传输给reduce。如下图：

没有使用combine函数