linux系统hadoop 集群搭建
时间: 2025-03-17 17:00:26 浏览: 41
### Linux系统上搭建Hadoop集群的详细步骤
#### 1. 准备工作
在开始之前,确保每台机器都已安装并配置好基础环境。这包括但不限于关闭防火墙、设置无密码SSH登录以及同步时间服务[^1]。
#### 2. JDK 的安装与配置
对于每一台参与集群构建的主机,都需要完成 JDK 文件及其环境变量的配置。具体操作如下:
- 将 JDK 安装包上传至 `/opt/software` 路径下;
- 解压该压缩包到指定目录 `tar -zxvf /opt/software/jdk-8u212-linux-x64.tar.gz -C /opt/module/`;
- 编辑 `.bash_profile` 或者全局 profile 文件来定义 JAVA_HOME 变量,并将其加入 PATH 中[^2]。
#### 3. 主机名解析配置
为了使各节点之间能够通过名字互相访问而不是 IP 地址,在所有节点上的 `/etc/hosts` 文件中添加相应的记录。例如:
```plaintext
192.168.x.y HadoopMaster
192.168.x.z HadoopSlave1
...
```
完成后记得保存退出并重新启动计算机让更改生效。
#### 4. Hadoop 的安装与基本配置
##### a) 上传 Hadoop 压缩包
仅需在一个主节点执行此步即可(比如 hadoop01),把下载好的 Hadoop 版本放到共享存储位置如 `/opt/software` 下面去^。
##### b) 解压命令
同样只针对单个主控节点运行下面两条指令实现解档动作:
```bash
tar -zxvf /opt/software/hadoop-3.1.3.tar.gz -C /opt/module/
```
##### c) 修改 core-site.xml 和 hdfs-site.xml 等核心参数文件
依据实际需求调整副本数、namenode 数据路径等相关选项;同时也要注意 slave 列表里填写从属节点的名字列表.
#### 5. 启动验证
最后按照官方文档指引顺序依次开启 NameNode, DataNodes 等组件的服务进程,并利用 web UI 页面或者 CLI 工具检查整个分布式系统的健康状况和正常运作情况.
```python
# 示例 Python脚本用于测试连通性和简单数据处理逻辑
from pyspark import SparkContext
if __name__ == "__main__":
sc = SparkContext(appName="WordCountExample")
text_file = sc.textFile("hdfs://localhost:9000/user/input.txt")
counts = (text_file.flatMap(lambda line: line.split())
.map(lambda word: (word, 1))
.reduceByKey(lambda x,y:x+y))
output_counts = counts.collect()
for(word,count)in(output_counts):
print("%s:%i"%(word,count))
sc.stop()
```
阅读全文
相关推荐











