Hadoop单机部署
时间: 2025-03-07 10:17:01 浏览: 42
### Hadoop 单机部署教程
#### 准备工作
为了成功完成Hadoop单机环境的搭建,需先下载并解压适合版本的Hadoop压缩包到指定目录。之后进入`/usr/local/`路径下重命名解压后的文件夹名为`hadoop`以便后续操作更加便捷[^3]。
#### 配置环境变量
编辑`.bashrc`或其他相应的shell配置文件来设置HADOOP_HOME以及PATH变量,确保可以在任何位置通过命令行访问Hadoop命令工具。
#### 修改核心配置文件
针对`core-site.xml`, `hdfs-site.xml`等重要XML配置文档进行必要的参数调整以适应本地运行需求。对于`hdfs-site.xml`而言, 至少应设定数据副本数(`dfs.replication`)为1,并指明NameNode和DataNode存储路径的位置[^4]:
```xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/usr/local/hadoop/tmp/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/usr/local/hadoop/tmp/dfs/data</value>
</property>
</configuration>
```
#### 初始化HDFS文件系统
执行如下指令初始化分布式文件系统的名称节点(NameNode),这一步骤仅当首次启动或清除已有元数据时才需要做:
```bash
hdfs namenode -format
```
#### 启动Hadoop服务
利用脚本批量开启相关组件的服务进程,包括但不限于Namenode、Datanode等基础模块;如果计划使用YARN作为资源管理器,则还需额外激活ResourceManager与NodeManager实例[^5]:
```bash
start-dfs.sh
start-yarn.sh
```
验证各主要守护程序已正常上线的方法之一就是借助于`jps`命令检查Java进程中是否存在预期中的角色实体。
#### 测试Hadoop Streaming功能
最后可以尝试调用内置JAR包测试流处理能力,以此确认整个框架是否能够正确解析Python/Ruby等外部编程语言编写的Mapper/Reducer逻辑[^1]:
```bash
hadoop jar /usr/local/hadoop/share/hadoop/tools/lib/hadoop-streaming-3.3.1.jar \
-file mapper.py -mapper mapper.py \
-file reducer.py -reducer reducer.py \
-input input_files_path \
-output output_directory
```
以上即是在单一主机上构建简易Hadoop开发平台的大致流程概述。
阅读全文
相关推荐

















