Hadoop(九)MapReduce 案例2

原创

已于 2024-08-20 11:18:14 修改 · 1.3k 阅读

CC 4.0 BY-SA版权

文章标签：

于 2024-08-17 21:28:57 首次发布

MapReduce 处理阶段

MapReduce 框架通常由三个阶段组成：

下图把 MapReduce 的过程分为两个部分，而实际上从两边的 Map 和 Reduce 到中间的那一大块都属于 Shuffle 过程，也就是说，Shuffle 过程有一部分是在 Map 端，有一部分是在 Reduce 端。

数据

hello hbase
hello hadoop
hello hive
hello kubernetes
hello java

用户编写的 MapReduce 程序分成三个部分：Mapper，Reducer，Driver：

用户自定义 Mapper 类继承 Mapper 类，实现 map() 方法，输出和输出的数据都是 <K,V> 对形式，<K,V> 类型可以根据实际情况自定义。MapTask 进程对每一个 <K,V> 调用一次。
用户自定义 Reduce 类继承 Reduce 类，实现 reduce() 方法，输出和输出的数据都是 <K,V> 对形式，<K,V> 类型可以根据实际情况自定义。Reducetask 进程对每一组相同 K 的 <K,V> 组调用一次 reduce() 方法。
整个 MapReduce 程序需要一个 Drvier 类来进行提交，提交的是一个描述了各种必要信息的 Job 对象。

在 HDFS 中创建一个目录

hadoop fs -mkdir /wcinput

#将本机 words.txt 文件上传到 HDFS 的 /wcinput 目录中

hadoop fs -put /words.txt /wcinput

200万优质内容无限畅学