Ubuntu20.04.1 LTS安装Hadoop过程记录

本文详细记录了在Ubuntu20.04.1 LTS上安装Hadoop的过程,包括安装SSH、配置Java环境以及安装Hadoop的步骤。通过降级安装openssh-client解决依赖问题,配置SSH实现无密码登录,安装openjdk-8并设置环境变量,最后下载解压Hadoop并验证安装成功。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

文章目录


安装环境

 

项目 名称 版本
虚拟机

VirtualBox

6.1.14 r140239 (Qt5.6.2)

操作系统 Ubuntu 20.04.1 LTS
安装软件 Hadoop 3.3.0

安装步骤

1.安装SSH

在终端中执行以下命令

sudo apt-get install openssh-server

执行命令后可能会报依赖关系错误:

openssh-server:依赖:openssh-client(=1:7.6p1-ubuntu0.3)

### 在 Windows 11Ubuntu 20.04 上搭建 Hadoop 集群 #### 环境准备 为了在 Windows 11Ubuntu 20.04 中实现 Hadoop 集群的部署,通常会采用虚拟化技术来运行多个 Linux 节点。以下是具体的环境需求: - **Windows 11**: 主机操作系统。 - **VMware Workstation 或 VirtualBox**: 创建和管理虚拟机实例[^1]。 - **Ubuntu 20.04 LTS**: 安装于虚拟机中的 Guest OS。 - **Hadoop 版本**: 推荐使用稳定版本如 Hadoop 3.x。 --- #### 步骤一:安装 VMware 并创建虚拟机 在主机系统(Windows 11)上安装 VMware Workstation Pro 或其他虚拟化工具。通过该软件创建至少两台虚拟机作为主节点 (NameNode) 和从节点 (DataNode)[^1]。 每台虚拟机需满足以下条件: - CPU 核心数 ≥ 2。 - RAM ≥ 2GB。 - 存储空间 ≥ 20GB。 完成虚拟机设置后,在其中安装 Ubuntu 20.04 操作系统[^2]。 --- #### 步骤二:配置网络连接 为了让各节点之间能够通信,需要调整虚拟机的网络模式为桥接模式或 NAT 模式。具体操作如下: 1. 打开 VMware 的虚拟机设置界面。 2. 将网卡适配器更改为“桥接模式”,以便虚拟机可以直接访问局域网 IP 地址范围内的资源[^3]。 随后,在每台虚拟机中执行命令 `ifconfig` 查看分配的静态 IP 地址,并记录下来用于后续配置文件编辑。 --- #### 步骤三:Java 开发环境初始化 由于 Hadoop 是基于 Java 编写的框架,因此需要提前安装 JDK。推荐版本为 OpenJDK 8 或更高版本[^4]。 以 Ubuntu 终端为例,输入以下指令完成 JDK 安装: ```bash sudo apt update && sudo apt install openjdk-8-jdk -y ``` 验证安装成功与否可通过以下命令确认: ```bash java -version javac -version ``` 接着定义全局变量 `$JAVA_HOME` 来指定路径位置。打开 `/etc/profile` 文件并追加下列内容: ```bash export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 export PATH=$JAVA_HOME/bin:$PATH source /etc/profile ``` --- #### 步骤四:下载与解压 Hadoop 压缩包 前往 Apache 官方网站或者清华镜像站点获取最新版 Hadoop 压缩包[^1]。假设已保存至本地目录,则可以通过 tar 工具将其展开到目标路径下: ```bash tar -xzvf hadoop-*.tar.gz -C /usr/local/ mv /usr/local/hadoop-* /usr/local/hadoop chown -R $USER:$USER /usr/local/hadoop ``` 最后更新 `.bashrc` 添加必要的环境变量声明: ```bash echo 'export HADOOP_HOME=/usr/local/hadoop' >> ~/.bashrc echo 'export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin' >> ~/.bashrc source ~/.bashrc ``` --- #### 步骤五:核心配置文件修改 进入 Hadoop 解压缩后的根目录下的子目录 `etc/hadoop` 对几个重要 XML 文档做相应更改: ##### 1. 修改 `core-site.xml` 此文档负责设定 NameNode URI 及临时存储地址: ```xml <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://namenode-ip:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/app/hadoop/tmp</value> </property> </configuration> ``` 替换 namenode-ip 成实际 Master Node 的固定公网 IP。 ##### 2. 修改 `hdfs-site.xml` 此处主要涉及副本因子以及 DataNodes 数据存放策略: ```xml <configuration> <property> <name>dfs.replication</name> <value>2</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:/app/hadoop/data/namenode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:/app/hadoop/data/datanode</value> </property> </configuration> ``` 注意根据实际情况调整磁盘分区布局参数。 ##### 3. 修改 `mapred-site.xml` 启用 YARN 支持 MapReduce 计算任务调度机制: ```xml <configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration> ``` ##### 4. 修改 `yarn-site.xml` YARN Resource Manager 设置部分样例如下所示: ```xml <configuration> <property> <name>yarn.resourcemanager.hostname</name> <value>resourcemanager-ip</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration> ``` 同样把 resourcemanager-ip 替换成对应机器上的真实数值。 --- #### 步骤六:启动服务进程 依次按照顺序开启各个组件的服务状态: ```bash start-dfs.sh # 启动 DFS 名称节点和服务节点 start-yarn.sh # 启动 YARN 应用程序管理器及其附属模块 mr-jobhistory-daemon.sh start historyserver # 如果需要用到历史服务器的话也得单独激活它 jps # 利用 jps 命令查看当前 JVM 实例列表从而判断是否正常工作 ``` 此时应该可以看到类似下面这样的输出结果表示一切顺利加载完毕: ``` Namenode Datanode SecondaryNameNode ResourceManager NodeManager JobHistoryServer ``` --- #### 测试阶段 上传测试数据集并通过 Web UI 页面监控整个集群运作状况;也可以编写简单的 WordCount 示例脚本来进一步检验功能可用性。 ---
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值