Hadoop运行WordCount示例出现的一些问题及解决办法-CSDN博客

本文详细介绍了使用cygwin伪分布式环境运行Hadoop WordCount示例时遇到的两个问题及其解决方法。首先解决了***/work/tmpdoesnotexist问题，通过配置conf/mapred-site.xml文件中的mapred.child.tmp属性来指定临时目录。接着解决了map100%，reduce0%问题，只需在/etc/hosts中添加本机名和IP即可。此外，还提供了完整的运行过程，包括准备测试数据、创建输入目录、运行WordCount程序以及查看结果的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

博客标题起的真别扭。。 :evil:
先说两点：
1.用cygwin伪分布式环境运行的。
2.hadoop开发者第一期里有个DFSOperator的示例，那个更简单，怎么打jar包，怎么运行之类的问题可以先参见一个那篇文章。

运行WordCount示例遇到了两个问题：
a. ***/work/tmp does not exist的问题
解决办法：配置conf/mapred-site.xml文件中mapred.child.tmp属性的值，如下：
<property>
<name>mapred.child.tmp</name>
<value>/hadoop/childtmp</value>
</property>
原因貌似是运行hadoop需要临时目录存储中间数据。
b. map100%，reduce0%的问题
解决办法：在/etc/hosts下加上本机器的名字和ip即可。

下边说一下运行过程：
1.准备一些测试数据，例如input1.txt和input2.txt

[img]http://dl.iteye.com/upload/attachment/0065/7768/ea986c31-8e93-30c1-bba5-88ceb47adcd4.jpg[/img]

2.新建输入目录，将测试数据put进去。

[img]http://dl.iteye.com/upload/attachment/0065/7770/8dabc7de-19d2-382d-a968-41fecaeedfc5.jpg[/img]

3.运行./hadoop jar wordcount.jar WordCount input output，这里会自动新建output目录，如果之前已存在，会报FileAlreadyExistsException，这时需要./hadoop fs -rmr output删掉它(觉得这里有点奇怪，求解答)。

[img]http://dl.iteye.com/upload/attachment/0065/7774/dae5cf07-6db7-3912-bf9e-f7e8b31c7c79.jpg[/img]

4.查看运行结果。

[img]http://dl.iteye.com/upload/attachment/0065/7777/3458cb70-da06-34b8-a3fb-b1bac2ad1223.jpg[/img]

下一篇开始转战ubuntu，不在纠结windows了。 :arrow: