Google MapReduce编程模型与应用

PDF文件

下载需积分: 10 | 525KB | 更新于2024-07-25 | 29 浏览量 | 举报收藏

立即下载

"Google MapReduce中文版" MapReduce是Google提出的一种用于处理和生成大规模数据集的编程模型，其核心理念是将复杂的大规模并行计算简化为两个主要步骤：Map（映射）和Reduce（归约）。这个模型允许开发者专注于业务逻辑，而无需深入理解底层分布式系统的细节。 1、Map阶段 Map函数是MapReduce的核心部分之一，它接收一组基于key-value对的数据作为输入，然后对每一对数据进行处理，生成新的中间key-value对。这个过程通常是并行进行的，每个数据块可以在集群中的不同节点上独立处理。Map函数的设计使得数据预处理和过滤操作变得简单，例如，可以用于提取文档的关键信息或者进行初步的统计分析。 2、Shuffle和Sort阶段在Map阶段完成后，系统会自动进行Shuffle和Sort操作。这一步骤将所有具有相同中间key的value聚类在一起，同时对这些key-value对进行排序，为接下来的Reduce阶段做好准备。Shuffle和Sort是MapReduce框架内部自动执行的，确保了数据的正确性和一致性。 3、Reduce阶段 Reduce函数接收经过Map和Shuffle阶段处理后的中间key-value对，对每个相同的中间key的所有value进行聚合操作，生成最终的key-value对。这个阶段通常用于总结、聚合或者计算全局统计信息，如求和、平均值或最大值。Reduce函数也是并行执行的，可以分布在集群的不同节点上，以提高处理速度。 4、容错机制与分布式处理 MapReduce系统设计考虑了分布式环境中的容错问题。如果某个节点在处理过程中出现故障，系统能够自动检测并重新分配任务给其他健康的节点，保证计算的完整性。此外，输入数据会被切分成多个块，并复制到多个位置，以防止数据丢失。 5、应用广泛性 Google MapReduce的实现运行在大规模的普通机器集群上，可以处理TB级别的数据。这种灵活性和可扩展性使得它成为处理各种大规模数据问题的理想工具，包括搜索引擎的索引构建、日志分析、社交网络分析等。在Google内部，MapReduce已经被广泛应用于上百种不同的任务，每天都有数千个作业在执行。 6、编程模型的优势 MapReduce模型降低了分布式计算的门槛，使得非专业分布式系统的程序员也能轻松处理大规模数据。通过抽象出Map和Reduce这两个基本操作，程序员只需关注业务逻辑，而无需关心数据分布、并行计算和容错等底层细节。总结来说，Google MapReduce提供了一种高效且易于使用的框架，用于处理大规模数据的并行计算。它通过将复杂的分布式系统问题封装在库中，使得开发者可以更专注于数据处理的业务逻辑，极大地推动了大数据处理的发展。

4 / 18

图 1 展示了我们的 MapReduce 实现中操作的全部流程。当用户调用 MapReduce 函数时，将发生下面的一系列动作（下面

的序号和图 1 中的序号一一对应）：

1.用户程序首先调用的 MapReduce 库将输入文件分成 M 个数据片度，每个数据片段的大小一般从 16MB 到 64MB(可以通

过可选的参数来控制每个数据片段的大小)。然后用户程序在机群中创建大量的程序副本。

（

alex

：

copies of the program

还真难翻译）

2.这些程序副本中的有一个特殊的程序–master。副本中其它的程序都是 worker 程序，由 master 分配任务。有 M 个 Map

任务和 R 个 Reduce 任务将被分配，master 将一个 Map 任务或 Reduce 任务分配给一个空闲的 worker。

3.被分配了 map 任务的 worker 程序读取相关的输入数据片段，从输入的数据片段中解析出 key/value pair，然后把

key/value pair 传递给用户自定义的 Map 函数，由 Map 函数生成并输出的中间 key/value pair，并缓存在内存中。

4.缓存中的 key/value pair 通过分区函数分成 R 个区域，之后周期性的写入到本地磁盘上。缓存的 key/value pair 在本地

磁盘上的存储位置将被回传给 master，由 master 负责把这些存储位置再传送给 Reduce worker。

5.当 Reduce worker 程序接收到 master 程序发来的数据存储位置信息后，使用 RPC 从 Map worker 所在主机的磁盘上

读取这些缓存数据。当 Reduce worker 读取了所有的中间数据后，通过对 key 进行排序后使得具有相同 key 值的数据聚合

在一起。由于许多不同的 key 值会映射到相同的 Reduce 任务上，因此必须进行排序。如果中间数据太大无法在内存中完成

排序，那么就要在外部进行排序。

6.Reduce worker 程序遍历排序后的中间数据，对于每一个唯一的中间 key 值，Reduce worker 程序将这个 key 值和它

相关的中间 value 值的集合传递给用户自定义的 Reduce 函数。Reduce 函数的输出被追加到所属分区的输出文件。

7.当所有的 Map 和 Reduce 任务都完成之后，master 唤醒用户程序。在这个时候，在用户程序里的对 MapReduce 调用

才返回。

剩余17页未读，继续阅读

manorn

粉丝: 2

Google MapReduce编程模型与应用

Google MapReduce 中文版

Google-MapReduce中文版_1.0.zip

Google MapReduce中文版 pdf

Google MapReduce中文版.pdf

深入解析Google MapReduce中文版技术细节

Google MapReduce中文版：编程模型与大规模数据处理

Google MapReduce中文版1.0：并行处理与大数据计算框架

Google MapReduce中文版：并行处理与大规模数据的编程框架

google 论文 mapreduce 中文版

Google+MapReduce中文版

最新资源