Hadoop 是一个开源的分布式存储和处理框架,常用于大数据处理。通过 Hadoop 的安装和配置,用户可以利用其强大的分布式计算能力处理大规模的数据集。本文将介绍如何在 Ubuntu 22.04 上安装并配置 Hadoop 单机模式和伪分布式模式。
目录
- 安装 Hadoop 前的准备工作
- 安装 Java
- 创建用户和组
- 配置环境变量
- 下载并解压 Hadoop
- 配置 Hadoop 单机模式和伪分布式模式
- 启动 Hadoop 并验证安装
- 总结
1. 安装 Hadoop 前的准备工作
1.1 安装 Java
Hadoop 是基于 Java 开发的,因此需要先安装 Java 开发工具包(JDK)。Hadoop 支持 Java 8 及以上版本。在 Ubuntu 22.04 上安装 OpenJDK 8 可以通过以下命令完成:
sudo apt update
sudo apt install openjdk-8-jdk -y
安装完成后,检查 Java 版本:
java -version
输出应类似于:
openjdk version "1.8.0_292"
OpenJDK Runtime Environment (build 1.8.0_292-b10)
OpenJDK 64-Bit Server VM (build 25.292-b10, mixed mode)
1.2 创建 Hadoop 用户和组
为了安全起见,建议为 Hadoop 创建专门的用户和组。使用以下命令创建一个名为 hadoop
的用户和组:
sudo groupadd hadoop
sudo useradd -g hadoop -m -s /bin/bash hadoop
为 Hadoop 用户设置密码:
sudo passwd hadoop
1.3 配置环境变量
将 Java 和 Hadoop 配置到环境变量中。编辑 /etc/profile
文件:
sudo nano /etc/profile
添加以下内容:
# Hadoop Environment Variables
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export HADOOP_HOME=/home/hadoop/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=