三,配置伪分布模式hadoop
伪分布模式与单机模式相比最大的特点是创建了HDFS,数据的处理和计算结果都在HDFS中进行。因为HDFS只在一台计算机实现,所以称伪分布模式。伪分布模式已经具备了hadoop的典型元素,常用于程序调试,在伪分布模式下通过的程序可以直接提交到hadoop集群中运行。在hadoop单机模式的基础上,修改配置文件就可以实现伪分布模式。
1.配置前检查
(1)关闭防火墙,SELinux
sudo apt install ufw #下载ufw工具
sudo ufw status verbose #查看防火墙状态
sudo ufw enable #开启防火墙
sudo ufw disable #关闭防火墙
sudo apt-get install selinux-utils #下载selinux-utils工具方便对selinux的控制等
sudo apt install policycoreutils #下载policycoreutils工具方便查看selinux的状态
sestatus #查看selinux的状态,一般情况下是disabled状态,如果是enforcing则需要将其关闭
sudo vim /etc/selinux/config #进入/etc/selinux/config修改selinux的状态,关闭它
(2)检查jdk,hadoop的配置情况
一切正常
2.开始配置
(1)进入伪分布xml文件配置目录,大家按图索骥即可
(2)在core-site.xml 文件中配置hadoop的tmp目录和FS的URL地址,tmp目录用于保存HDFS的关键文件
sudo vim core-site.xml #进入core-site.xml进行配置
在core-site.xml文件中输入以下内容
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/opt/apps/hadoop-3.3.4/tmp</value>
<description>Abase for other temporary directories.</description>
</property>
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop:9000</value>
</property>
</configuration>
(3)配置hdfs-site.xml文件,文件所在目录与core-site.xml文件相同,内容包括文件块在HDFS中保存的副本数以及NameNode和DataNode的文件保存目录。
sudo vim hdfs-site.xml #进入该目录进行编辑并添加以下内容
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>