Hadoop运行WordCount示例出现的一些问题及解决办法

本文详细介绍了使用cygwin伪分布式环境运行Hadoop WordCount示例时遇到的两个问题及其解决方法。首先解决了***/work/tmpdoesnotexist问题,通过配置conf/mapred-site.xml文件中的mapred.child.tmp属性来指定临时目录。接着解决了map100%,reduce0%问题,只需在/etc/hosts中添加本机名和IP即可。此外,还提供了完整的运行过程,包括准备测试数据、创建输入目录、运行WordCount程序以及查看结果的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

博客标题起的真别扭。。 :evil:
先说两点:
1.用cygwin伪分布式环境运行的。
2.hadoop开发者第一期里有个DFSOperator的示例,那个更简单,怎么打jar包,怎么运行之类的问题可以先参见一个那篇文章。

运行WordCount示例遇到了两个问题:
a. ***/work/tmp does not exist的问题
解决办法:配置conf/mapred-site.xml文件中mapred.child.tmp属性的值,如下:
<property>
<name>mapred.child.tmp</name>
<value>/hadoop/childtmp</value>
</property>
原因貌似是运行hadoop需要临时目录存储中间数据。
b. map100%,reduce0%的问题
解决办法:在/etc/hosts下加上本机器的名字和ip即可。

下边说一下运行过程:
1.准备一些测试数据,例如input1.txt和input2.txt

[img]http://dl.iteye.com/upload/attachment/0065/7768/ea986c31-8e93-30c1-bba5-88ceb47adcd4.jpg[/img]

2.新建输入目录,将测试数据put进去。

[img]http://dl.iteye.com/upload/attachment/0065/7770/8dabc7de-19d2-382d-a968-41fecaeedfc5.jpg[/img]

3.运行./hadoop jar wordcount.jar WordCount input output,这里会自动新建output目录,如果之前已存在,会报FileAlreadyExistsException,这时需要./hadoop fs -rmr output删掉它(觉得这里有点奇怪,求解答)。

[img]http://dl.iteye.com/upload/attachment/0065/7774/dae5cf07-6db7-3912-bf9e-f7e8b31c7c79.jpg[/img]

4.查看运行结果。

[img]http://dl.iteye.com/upload/attachment/0065/7777/3458cb70-da06-34b8-a3fb-b1bac2ad1223.jpg[/img]

下一篇开始转战ubuntu,不在纠结windows了。 :arrow:
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值