Hadoop WordCount程序详解与运行步骤

DOC文件

5星 · 超过95%的资源 | 下载需积分: 45 | 51KB | 更新于2024-09-13 | 56 浏览量 | 举报收藏

立即下载

"Hadoop示例程序的运行与详解，包括WordCount案例" Hadoop是一个开源的分布式计算框架，主要用于处理和存储大规模数据。这个示例主要讲解了如何在Hadoop环境中运行一个基本的WordCount程序，这是一个经典的MapReduce示例，用于统计文本中单词出现的次数。首先，我们需要理解Hadoop的运行环境。在描述中提到，Hadoop已经在Linux环境下成功运行，并且提到了两个路径，一个是输入路径`/home/cq/wordcount/input`，另一个是输出路径`/home/cq/wordcount/output`。这两个路径分别对应HDFS（Hadoop Distributed File System）中的输入文件和最终的计算结果。在运行WordCount程序前，我们需要确保输入路径下有文本文件。通过`hadoopfs-ls`命令可以查看输入路径下的文件，如`file01`和`file02`。使用`hadoopfs-cat`命令可以查看文件内容，例如，`file01`和`file02`中分别包含"HelloWorld"和"HelloHadoopGoodbyeHadoop"这样的文本。运行WordCount程序的命令是`bin/hadoop jar`，后接JAR文件路径、MapReduce任务的主类以及输入和输出路径。在这个例子中，执行命令如下： ```bash $ bin/hadoop jar /*/WordCount /home/cq/wordcount/input /home/cq/wordcount/output ``` 执行完成后，结果会被保存在输出路径下，通过`hadoopdfs-cat`查看`part-00000`文件，可以看到每个单词及其对应的计数值，例如"Bye1", "Goodbye1", "Hadoop2", "Hello2", "World2"。代码部分展示了WordCount的实现。程序主要由以下几个部分组成： 1. **Mapper**：这是处理输入数据的第一步，通常用于对数据进行预处理。在这个例子中，Mapper会读取每一行文本，使用`StringTokenizer`进行分词，然后将每对`(word, 1)`作为键值对输出。 2. **Reducer**：Reducer接收到Mapper的输出，对相同键的值进行聚合，也就是对每个单词的计数值求和。在这个例子中，它会计算每个单词的总数并输出。 3. **Main函数**：设置输入和输出路径，创建Job对象，配置Mapper和Reducer类，然后提交Job并等待完成。 MapReduce编程模型的核心思想是将大问题分解为小任务，通过并行处理提高效率。在这个WordCount示例中，Map阶段完成了分词，Reduce阶段完成了计数，最终合并结果，实现了对大量文本的单词计数功能。了解并掌握WordCount程序的运行流程和代码实现，对于初学者来说是进入Hadoop和MapReduce世界的重要步骤。通过对这些API的理解，可以更好地理解和应用Hadoop进行大数据处理。

Hadoop

示例程序

WordCount

运行及详解

文章分类:Java

编程

最近在学习云计算，研究 Haddop 框架，费了一整天时间将 Hadoop 在

Linux 下完全运行起来，看到官方的 map-reduce 的 demo 程序

WordCount，仔细研究了一下，算做入门了。



运行方法：

假设：

 /home/cq/wordcount/input - 是 HDFS 中的输入路径

 /home/cq/wordcount/output - 是 HDFS 中的输出路径

用示例文本文件做为输入：

$ bin/hadoop fs -ls /home/cq/wordcount/input/

/ home/cq /wordcount/input/!le01

/ home/cq /wordcount/input/!le02

$ bin/hadoop fs -cat / home/cq / wordcount/input/!le01

Hello World Bye World

$ bin/hadoop dfs -cat /home/cq/wordcount/input/!le02

Hello Hadoop Goodbye Hadoop



运行应用程序：

$ bin/hadoop jar /*/WordCount /home/cq/wordcount/input

/home/cq/wordcount/output

输出是：

$ bin/hadoop dfs -cat /home/cq/wordcount/output/part-00000

Bye 1

Goodbye 1

Hadoop 2

Hello 2

World 2

下载后可阅读完整内容，剩余4页未读，继续阅读

开通会员，免费下载（低至0.43元/天)

成为会员后, 你将解锁

下载资源随意下

优质VIP博文免费学

优质文库回答免费看

付费资源9折优惠

pechs

粉丝: 0

Hadoop WordCount程序详解与运行步骤

Hadoop示例程序合并文件

Hadoop示例程序WordCount运行及详解

hadoop示例

hadoop:Hadoop 示例

hadoop示例源码

Hadoop-Examples:一些 Hadoop 示例

hadoop-in-action:gradle 的 Hadoop 示例

sequenceiq-samples:SequenceIQ Hadoop示例

Hadoop 示例：深入理解Hadoop框架

Gradle实现的Hadoop示例项目分析

最新资源