ubuntu 20.04 hadoop
时间: 2025-04-30 14:46:05 浏览: 19
### 在 Ubuntu 20.04 上安装和配置 Hadoop
#### 准备工作
在开始之前,确保系统已更新至最新状态并安装必要的工具。可以运行以下命令来完成系统的准备工作:
```bash
sudo apt update && sudo apt upgrade -y
```
#### 安装 Java
Hadoop 需要 Java 环境支持。根据引用中的描述[^3],可以通过以下步骤安装 JDK:
1. **下载 JDK**
访问华为云镜像站点或其他可信源获取 JDK 压缩包(例如 `jdk-8u202-linux-x64.tar.gz`),或者通过 wget 工具直接下载:
```bash
wget https://repo.huaweicloud.com/java/jdk/8u202-b08/jdk-8u202-linux-x64.tar.gz
```
2. **解压文件**
将压缩包解压到 `/usr/local` 目录下:
```bash
sudo tar -zxvf jdk-8u202-linux-x64.tar.gz -C /usr/local/
cd /usr/local/
sudo mv jdk1.8.0_202 jdk8
```
3. **设置环境变量**
编辑 `.bashrc` 文件以添加 JAVA_HOME 和 PATH 变量:
```bash
echo 'export JAVA_HOME=/usr/local/jdk8' >> ~/.bashrc
echo 'export PATH=$JAVA_HOME/bin:$PATH' >> ~/.bashrc
source ~/.bashrc
```
验证 Java 是否安装成功:
```bash
java -version
```
#### 下载和解压 Hadoop
按照引用的内容[^4],执行以下操作:
1. **下载 Hadoop**
进入官网或镜像站点下载适合的版本(如 Hadoop 2.7.x)。假设我们使用的是 Hadoop 2.7.1 版本:
```bash
wget http://apache.mirrors.spacedump.net/hadoop/common/hadoop-2.7.1/hadoop-2.7.1.tar.gz
```
2. **解压 Hadoop**
解压到指定目录(如 `/opt/servers/`):
```bash
sudo mkdir -p /opt/servers/
tar -zxvf hadoop-2.7.1.tar.gz -C /opt/servers/
cd /opt/servers/
sudo mv hadoop-2.7.1 hadoop
```
#### 配置 Hadoop
继续参照引用内容进行配置。
1. **编辑环境变量**
修改 `.bashrc` 文件以包含 HADOOP_HOME 并将其加入 PATH 中:
```bash
echo 'export HADOOP_HOME=/opt/servers/hadoop' >> ~/.bashrc
echo 'export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin' >> ~/.bashrc
source ~/.bashrc
```
2. **修改核心配置文件**
找到 Hadoop 的配置文件路径(通常位于 `$HADOOP_HOME/etc/hadoop/`),并对以下几个主要文件进行调整:
- **core-site.xml**: 设置 HDFS 默认存储位置。
```xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
```
- **hdfs-site.xml**: 配置副本数量和其他参数。
```xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
```
- **mapred-site.xml**: 如果该文件不存在,则复制模板文件 `mapred-site.xml.template` 并对其进行修改。
```xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
```
- **yarn-site.xml**: 配置 YARN 参数。
```xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
```
3. **格式化 NameNode**
使用以下命令初始化 HDFS 文件系统:
```bash
hdfs namenode -format
```
#### 启动服务
启动 Hadoop 服务前,需确认 SSH 无密码登录已配置完毕(可参考引用相关内容)。随后依次启动 HDFS 和 YARN 服务:
```bash
start-dfs.sh
start-yarn.sh
```
访问 Web UI 页面检查集群状态:
- HDFS 状态页面:http://<your-ip>:50070
- ResourceManager 状态页面:http://<your-ip>:8088
---
###
阅读全文
相关推荐

















