Ubuntu20.04搭建Hadoop3.X完全分布式集群流程


Ubuntu20.04搭建Hadoop3.X完全分布式集群流程

一起学习!博主也是在学习摸索的过程中,欢迎指出错误。

一、前置条件

博主的配置: VMware Workstation 15 Pro + Ubuntu20.04 + Hadoop3.2.3

PS: Hadoop的下载可以到官网去下载,如果下载速度过慢,可以去 清华镜像站 下载,搜索apache在里面就可以找到hadoop。

网上也有很多相关教程,本博就不再细说。

二、虚拟机搭建

下面为三台虚拟机的hostname和ip地址

hostname Ip地址
master 192.168.64.129
slave1 192.168.64.128
slave2 192.168.64.130

以Ubuntu64为主机,命名为master(PS:为保证环境的纯净博主在原有用户上新建了hadoop用户作为master)

sudo useradd -m hadoop -s /bin/bash
sudo passwd hadoop //设置密码
sudo adduser hadoop sudo

网络配置

1.VMware网络配置

  • 打开虚拟机编辑里的虚拟网络编辑器,VMnet8(NAT模式),记得去掉DHCP选项

  • 打开控制面板找到“服务”(可能在管理工具里)确保图中VM开头的服务打开
  • 打开网络共享中心,配置好图中选项,记得与前面虚拟机中相对应。
    2.Ubuntu网络配置
  • 打开浏览器查看是否有网,也可查看ip地址ifconfig
  • 如果没有显示inet地址,可以尝试以下方法。
    sudo vim /etc/NetworkManager/NetworkManager.conf

    如果存在上述文件可以尝试sudo vim /etc/network/interfaces
    编写如图,电脑端口(ens32)在查ip地址时可看见。
  • sudo vim /etc/netplan/01-network-manager-all.yaml修改内容,注意addresses与ip相同
### Ubuntu 20.04 上安装和配置 Hadoop 分布式集群 #### 创建专用用户 为了保持系统的纯净度并提高安全性,建议创建一个新的用户来运行 Hadoop 集群。命令如下: ```bash sudo useradd -m hadoop -s /bin/bash sudo passwd hadoop sudo adduser hadoop sudo ``` 这组指令会建立名为 `hadoop` 的新用户,并赋予其管理员权限[^2]。 #### 安装 SSH 服务 确认主机已安装并启用了SSH服务对于后续操作至关重要。可以通过以下命令验证是否已有SSHD进程正在运行: ```bash sudo ps -e | grep ssh ``` 如果未发现任何输出,则需通过包管理器安装 OpenSSH Server: ```bash sudo apt update && sudo apt install openssh-server ``` 确保服务正常启动后继续下一步配置[^3]。 #### 下载与解压缩 Hadoop 发行版 前往 Apache 官方网站获取最新稳定版本的二进制分发文件,上传至目标服务器或者直接利用wget工具下载到本地磁盘空间中;接着使用 tar 命令将其展开到指定位置,比如 `/usr/local/` 文件夹下。 假设当前工作路径位于根目录: ```bash cd ~ wget https://archive.apache.org/dist/hadoop/core/hadoop-2.10.1/hadoop-2.10.1.tar.gz tar zxvf hadoop-2.10.1.tar.gz -C /usr/local/ ``` #### 设置环境变量 编辑全局 profile 文件以便让所有登录 shell 用户都能识别 HADOOP_HOME 及关联路径。打开文本编辑器修改该文件,在末尾追加相应声明语句: ```bash vi /etc/profile export HADOOP_HOME=/usr/local/hadoop-2.10.1 export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin source /etc/profile # 应用更改 ``` 上述过程使得可以在任意地方调用 Hadoop 提供的各种命令而无需指明绝对路径[^5]。 #### 修改核心配置文件 进入先前解压出来的 Hadoop 目录下的 etc 子目录,这里存放着多个 XML 格式的参数定义文档。主要关注以下几个方面: - **core-site.xml**: 设定 NameNode 地址以及其他基本属性; - **hdfs-site.xml**: 规划 DataNodes 数量以及副本因子等细节; - **yarn-site.xml**: 负责 YARN 组件间的通信机制调整; - **mapred-site.xml**: 明确 MapReduce JobTracker 和 TaskTrackers 行为模式。 具体设置依赖于实际应用场景和个人偏好,请参照官方指南完成个性化定制[^4]。 #### 初始化并启动集群 一切准备就绪之后就可以执行必要的初始化动作了——格式化 namenode 并开启各个守护线程: ```bash hdfs namenode -format start-dfs.sh start-yarn.sh jps # 查看 Java 进程状态以检验各节点是否成功上线 ``` 此时应该能够看到代表不同角色的工作单元被激活,标志着整个分布式计算框架搭建完毕!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值