.Hadoop的安装与配置(步骤+代码+截图) (1)创建虚拟机并命名为Hadoop(用户名:Hadoop,密码:123456) (2)更新apt和安装Vim编辑器 (3)安装SSH和配置SSH无密码登录 (4)安装java环境 (5)安装Hadoop (6)Hadoop伪分布式安装
时间: 2025-05-17 07:06:21 浏览: 42
### Hadoop 安装与配置教程
#### 创建虚拟机并准备环境
为了顺利安装Hadoop,在开始之前需准备好运行环境。这包括但不限于VMware的安装配置以及Ubuntu系统的部署。
对于VMware的具体设置,确保已经完成其基本配置以便支持后续操作。接着下载所需的Ubuntu镜像文件用于创建新的虚拟机实例。如果已有Ubuntu系统,则可以跳过这部分工作,但仍需要注意保证能够通过远程方式传输必要的工具如VMware Tools,并确认操作系统为英文版本[^1]。
#### 更新APT源列表
进入终端执行如下命令来刷新本地软件库索引:
```bash
sudo apt-get update
```
该指令会连接到官方服务器获取最新的包信息表,从而使得之后能更方便快捷地查找和安装所需程序包。
#### Vim编辑器安装
考虑到后期可能涉及到大量文本文件修改任务,建议提前安装好Vim这款强大的命令行下文本编辑工具。可以通过下面这条简单的语句实现快速部署:
```bash
sudo apt install vim -y
```
这里`-y`参数的作用是在遇到提示时自动给予肯定答复以加快整个过程的速度。
#### 配置SSH服务及其免密登录功能
首先利用默认仓库中的资源安装OpenSSH客户端和服务端组件:
```bash
sudo apt install openssh-client openssh-server -y
```
随后测试本机间的ssh连通状况;紧接着生成一对公私钥对并将前者追加至授权钥匙串内,最后再次验证是否实现了无需输入密码即可成功建立安全shell通道的效果。
```bash
# 测试SSH连接
ssh localhost
# 生成RSA类型的密钥对,默认存储路径~/.ssh/id_rsa(.pub)
ssh-keygen -t rsa
# 将新产生的public key复制给当前用户的authorized_keys文件里去
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
# 再次尝试不带任何额外选项直接访问localhost看能否顺利完成认证流程而不需要人工干预提供passphrase
ssh localhost
```
上述一系列动作完成后即代表完成了SSH无密码登陆机制的确立。
#### 设置Java开发环境
鉴于Hadoop依赖于JDK才能正常运作,所以在此之前务必先解决这个问题。一种可行的办法是从Oracle官方网站或者其他可信渠道下载对应平台架构下的压缩包形式分发版,解压后移动到指定位置再调整全局变量PATH使之生效。不过此处推荐采用更为简便的方式——借助apt管理器在线安装openjdk系列开源实现之一作为替代方案:
```bash
sudo apt install openjdk-8-jdk -y
```
另外还需注意一点就是为了让其他应用程序也能识别所选版本的java解释引擎,记得把JAVA_HOME加入到环境变量当中去。具体做法参照后面提到的内容进行相应处理[^2]。
#### 下载并初始化Hadoop集群
前往Apache官网找到稳定发行版链接地址,使用wget命令抓取tarball归档文件下来放到临时目录里面展开成独立文件夹结构。重命名便于记忆的同时赋予所有人读写权限利于后续自定义改动。而后依据官方文档指示逐步完善conf子目录底下各个xml格式的核心配置项直至满足伪分布式的最低限度需求为止。
```bash
cd ~/
wget https://archive.apache.org/dist/hadoop/core/hadoop-3.3.0/hadoop-3.3.0.tar.gz
tar zxf hadoop-3.3.0.tar.gz
mv hadoop-3.3.0 /usr/local/hadoop
chmod a+wrx /usr/local/hadoop
```
针对core-site.xml, hdfs-site.xml 和 yarn-site.xml 文件做适当调整,比如设定namenode节点对应的RPC通信监听接口、datanode数据块副本数量限制等属性值。特别强调的是要记住开启secondary namenode定期检查主控机器健康状态的功能特性以防止单点故障引发的数据丢失风险。
#### 编辑YARN环境脚本
打开位于`$HADOOP_HOME/etc/hadoop/yarn-env.sh` 的Shell脚本来指明具体的Java runtime location:
```bash
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
```
以上述方法为例,实际路径可能会有所不同取决于先前选择安装哪一个特定版本号的JRE/JDK套件。保存更改后的文件退出编辑模式。
#### 启动Hadoop服务
一切就绪之后就可以按照既定顺序依次启动NameNode/DataNode/YARN ResourceManager/Nodemanager等一系列后台守护进程了。通常情况下只需要简单调用start-dfs.sh 和 start-yarn.sh 脚本就能轻松搞定这一切繁杂的工作。
```bash
/usr/local/hadoop/sbin/start-dfs.sh
/usr/local/hadoop/sbin/start-yarn.sh
```
此时应该可以在浏览器中查看Web UI界面监控集群整体性能指标变化情况了(http://<master-ip>:50070 和 http://<master-ip>:8088)。当然这只是初步体验而已,更多高级特性和优化技巧还有待深入探索学习。
阅读全文
相关推荐














