大数据实训（三）——MapReduce编程实例：词频统计

Python+JAVA+大数据

于 2024-05-24 09:45:00 发布

阅读量1.8k

点赞数 17

CC 4.0 BY-SA版权

文章标签：大数据 mapreduce hadoop 云计算 centos

#MapReduce#YARN#hdfs#IDEA#JDK1.8

实验三：Mapreduce词频统计

3.1启动hadoop服务，输入命令：

start-all.sh

3.2在export目录下，创建wordcount目录，在里面创建words.txt文件，向words.txt输入下面内容。

[root@bogon~]# mkdir -p /export/wordcount
[root@bogon~]# cd /export/wordcount/
[root@bogon~]# vi words.txt
[root@bogon~]# cat words.txt

3.3编辑结束，上传文件到HDFS指定目录

创建/wordcount/input目录，执行命令：

hdfs dfs -mkdir -p /wordcount/input

3.4将在本地/export/wordcount/目录下的words.txt文件，上传到HDFS的/wordcount/input目录，输入命令：

hdfs dfs -put /export/wordcount/words.txt /wordcount/input

在Hadoop WebUI界面查看目录是否创建成功

3.5使用IDEA创建Maven项目MRWordCount

在pom.xml文件里添加hadoop和junit依赖，内容为：

<dependencies>

200万优质内容无限畅学