hadoop伪分布式搭建 centos
时间: 2025-02-15 07:12:40 浏览: 37
### 如何在CentOS上配置Hadoop伪分布式环境
#### 准备工作
为了顺利安装并运行 Hadoop,在 CentOS 上需完成如下准备:
- **安装 VMware**:确保已安装 VMware 软件用于创建虚拟机。
- **CentOS 配置**
- 设置固定 IP 地址,编辑 `/etc/sysconfig/network-scripts/ifcfg-eth0` 文件来指定静态 IP[^1]。
- 关闭防火墙以减少网络干扰 `systemctl stop firewalld.service; systemctl disable firewalld.service`.
- 修改主机名为适合集群使用的名称,可通过编辑 `/etc/hostname` 实现永久变更.
- 编辑 `/etc/hosts`, 添加本机 IP 和新设的主机名对应关系以便于内部解析.
- 使用 SSH 密钥认证实现无密码登录,方便后续操作自动化.
#### 安装 JDK
Java 是 Hadoop 运行所必需的基础组件之一。
```bash
# 下载并解压 JDK 至合适位置
tar zxvf jdk-8uXXX-linux-x64.tar.gz -C /opt/
```
接着更新全局环境变量文件 `/etc/profile`:
```bash
export JAVA_HOME=/opt/jdk1.8.0_XXX
export PATH=$PATH:$JAVA_HOME/bin
source /etc/profile # 应用更改
java -version # 测试 Java 是否正常工作
```
以上步骤确保了系统的 Java 开发工具链已经就绪[^2].
#### 安装 Hadoop
获取最新版本的 Hadoop 并将其放置到目标机器上的适当目录内。这里推荐使用本地传输方式提高效率[^3]:
```bash
cd /usr/local
sudo tar zxf ~/Downloads/hadoop-3.3.6.tar.gz
sudo mv hadoop-3.3.6 hadoop
sudo chown -R $USER:hadoop ./hadoop # 更改所有权给当前用户
```
随后调整必要的配置项,主要涉及三个 XML 文件(`core-site.xml`, `hdfs-site.xml`, `yarn-site.xml`)以及 shell script (`hadoop-env.sh`). 特别注意替换其中占位符为实际路径或参数值.
对于核心站点配置 core-site.xml :
```xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
```
针对 HDFS 站点 hdfs-site.xml 的设定则更为具体一些 :
```xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/home/user/data/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/home/user/data/datanode</value>
</property>
</configuration>
```
最后一步是在 hadoop-env.sh 中定义 JVM 参数及其他选项 :
```bash
export JAVA_HOME=${JAVA_HOME}
```
初始化 NameNode 后即可尝试启动整个框架 :
```bash
bin/hdfs namenode -format # 格式化文件系统
sbin/start-dfs.sh # 启动 DFS 组件
jps # 检查进程状态确认是否成功启动 Namenode/Datanode
```
访问 Web UI 页面 http://localhost:9870 来监控节点健康状况及资源利用率情况.
阅读全文
相关推荐

















