Ubuntu系统安装Hadoop3.1.3并进行单机/伪分布式配置
文章目录
前言
Hadoop官方真正支持的作业平台只有 Linux,在其他平台运行 Hadoop时,往往需要安装其他的包来提供一些 Linux操作系统的功能,以配合 Hadoop的执行。例如,在 Windows下运行 Hadoop,需要安装 Cygwin等软件。
Hadoop在 Linux操作系统上运行可以发挥最佳性能,建议大家使用 Linux系统来运行 Hadoop,可以去搭虚拟机或者买云服务器。
Hadoop安装方式:
- 单机模式:Hadoop 默认模式为非分布式模式(本地模式),无需进行其他配置即可运行。
- 伪分布式模式:Hadoop 可以在单节点上以伪分布式的方式运行,Hadoop 进程以分离的 Java 进程来运行,节点既作为 NameNode 也作为 DataNode,同时,读取的是 HDFS 中的文件。
- 分布式模式:使用多个节点构成集群环境来运行 Hadoop
单机模式和伪分布式模式在个人电脑上即可搭建,全分布式模式要求拥有集群实验环境,需要四台以上电脑作为节点。因为个人不具备集群条件,这里仅介绍 Hadoop的单机模式和伪分布式模式的配置。
详细流程
创建Hadoop用户
我们创建一个名为“hadoop”的用户来运行 Hadoop程序,这样可以使不同用户之间有明确的权限划分,也使得对 Hadoop的配置操作不影响其他用户的使用。
创建用户时建议使用 adduser而不是 useradd命令,因为 useradd 这个命令添加的用户不能远程登录,在本机登录时的登录界面也不会把所添加的用户列出来。
使用 adduser创建用户时会提示让用户设置密码,这个密码就是用户用来登录的密码,设置完毕请牢记此密码。
- Full Name是设置系统登录时展示的名字,通常我们是将首字母大写。比如用户名 hadoop,则登录名设置为 Hadoop。
- Room Name——Other等信息可以随意填写,也可以不填
- 最后输入 y进行确认即可
我们来创建一个新的普通用户 hadoop。
adduser hadoop //创建 hadoop用户
adduser hadoop sudo //增加管理员权限
接着,我们把登录账户从 root切换到 hadoop,并更新 apt。
su hadoop
sudo apt-get update
如果想退出 hadoop用户,回到 root账户,输入命令 exit即可。
如果不想继续使用用户 hadoop了,想要删除用户,输入命令
sudo deluser hadoop
创建新的用户‘hadoop’成功,我们可以先退出 Ubuntu系统,下次启动 Ubuntu时就能直接使用 hadoop这个账户登录了。
安装Java
因为 Hadoop本神是使用 Java语言编写的,所以 Hadoop的开发和运行都必须有 Java环境的支持,通常要求Java 7 或者更高版本。
对于 Ubuntu来说,系统可能已经预装了 Java,JDK版本为 OpenJDK,路径为“/usr/lib/jvm/default-java”。Ubuntu系统卸载 OpenJDK命令为
sudo apt-get remove openjdk*
在 Linux系统中安装 Java的步骤我们前面已经说过了,如果已经不记得怎么安装 Java的话,请参考这篇博客 Linux系统安装JDK1.8 详细流程
建议在 /usr/lib下新建 jvm文件夹,把 JDK安装在 jvm文件夹中。
配置SSH免密登陆
对于 Hadoop的伪分布式和全分布式配置来说,名称节点(NameNode)需要启动集群中所有机器的 Hadoop守护进程,这个过程可以通过 SSH登录实现。然而 Hadoop并没有提供 SSH输入密码登录的形式,因此我们需要配置为名称节点无密码登录所有机器,伪分布式和全分布式才能给顺利启动。
Ubuntu系统默认已安装了 SSH client,我们还需要安装 SSH server
sudo apt-get install openssh-server
安装完成后,登录本机
ssh localhost
SSH首次登录会进行提示,输入 yes,接着按提示输入刚才 hadoop账户设置的密码,就可以登录本机了。
这样登录每次是需要输入密码的,接下来我们要配置无密码登录。
我们先退出 SSH
exit
然后我们