windows下载配置hadoop
时间: 2025-05-31 20:55:12 浏览: 5
### Windows系统上下载和配置Hadoop
#### 1. 下载Hadoop
从Apache官网的存档页面下载所需版本的Hadoop软件包[^1]。例如,访问以下链接获取稳定版:
```plaintext
https://archive.apache.org/dist/hadoop/common/
```
选择适合的版本(如`hadoop-3.x.x`),并下载对应的二进制压缩文件。
对于Windows环境,还需要额外准备一些依赖工具,特别是`winutils.exe`文件。可以从GitHub仓库中找到适用于不同Hadoop版本的`winutils.exe`文件[^1]:
```plaintext
https://github.com/cdarlint/winutils
```
---
#### 2. 配置环境变量
解压已下载的Hadoop压缩包到目标目录(如`C:\hadoop\hadoop-3.x.x`)。接着设置如下环境变量:
- **HADOOP_HOME**: 设置为Hadoop安装路径,例如 `C:\hadoop\hadoop-3.x.x`。
- **PATH**: 将 `%HADOOP_HOME%\bin` 添加至系统的 PATH 变量中,以便全局调用 Hadoop 命令。
此外,在某些情况下可能需要手动复制 `winutils.exe` 文件到 `%HADOOP_HOME%\bin` 目录下以支持特定功能[^1]。
---
#### 3. 安装JDK并验证JAVA_HOME
Hadoop 运行依赖于 Java 环境,因此需先安装 JDK 并正确配置其路径。推荐将 JDK 安装在无空格的路径下(如 `C:\Java\jdk-x.y.z`),因为路径中的空格可能导致错误[^2]。
随后更新或创建 `JAVA_HOME` 环境变量指向 JDK 的根目录,并将其加入 PATH 中。可以通过执行以下命令来测试是否成功:
```bash
java -version
javac -version
```
最后修改 Hadoop 的配置文件 `hadoop-env.cmd` 来确认 JAVA_HOME 是否被正确定义。此文件位于 `%HADOOP_HOME%\etc\hadoop` 目录下。
---
#### 4. 修改核心配置文件
进入 `%HADOOP_HOME%\etc\hadoop` 目录编辑以下几个主要配置文件:
- **core-site.xml**
定义 HDFS 和其他服务的核心属性。示例内容如下:
```xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
```
- **hdfs-site.xml**
用于设定 NameNode 和 DataNode 的存储位置以及其他参数。示例内容如下:
```xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
```
- **mapred-site.xml**
启用 MapReduce 框架的相关选项。如果该文件不存在,则可以重命名模板文件 `mapred-site.xml.template` 后再进行编辑:
```xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
```
- **yarn-site.xml**
YARN 是资源管理器组件的关键部分之一。以下是基本配置实例:
```xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
```
完成以上更改后保存所有文件。
---
#### 5. 初始化并启动Hadoop集群
首次运行前需要格式化 NameNode 数据库结构。打开 CMD 终端窗口切换到 Hadoop 主目录并通过以下指令操作:
```bash
hdfs namenode -format
```
接下来通过管理员权限运行启停脚本来激活整个伪分布模式下的节点进程:
```bash
%HADOOP_HOME%\sbin\start-dfs.cmd
%HADOOP_HOME%\sbin\start-yarn.cmd
```
可通过浏览器访问默认 Web UI 地址检查状态,默认地址分别为:
- Namenode: http://localhost:9870/
- ResourceManager: http://localhost:8088/
停止服务时则分别执行 stop 脚本即可。
---
#### 6. 测试Hadoop安装情况
为了检验当前部署成果,尝试上传本地文件到 HDFS 上面去查看效果。具体做法如下所示:
```bash
hadoop fs -mkdir /input
hadoop fs -put %USERPROFILE%\Documents\example.txt /input/example.txt
hadoop fs -ls /
```
还可以利用 WordCount 示例程序进一步验证计算能力正常与否:
```bash
hadoop jar %HADOOP_HOME%\share\hadoop\mapreduce\hadoop-mapreduce-examples*.jar wordcount /input /output
```
完成后读取输出结果数据:
```bash
hadoop fs -cat /output/part-r-00000
```
---
### 注意事项
当遇到诸如 “Error: JAVA_HOME is incorrectly set.” 类型提示信息时,请参照先前描述调整好相关设置后再重新试验一遍流程直至顺利解决问题为止[^2]。
---
阅读全文
相关推荐

















