乌班图 Hadoop安装和配置
时间: 2025-06-01 18:09:46 浏览: 9
### Ubuntu 系统上安装和配置 Hadoop 的指南
在 Ubuntu 系统中安装和配置 Hadoop 需要完成多个步骤,包括 JDK 安装、Hadoop 下载与解压、环境变量配置、SSH 免密登录设置以及 Hadoop 的启动和验证。以下是详细的说明:
#### 1. 安装 Java Development Kit (JDK)
Hadoop 是基于 Java 开发的,因此需要先安装 JDK 并配置环境变量。
```bash
$ sudo apt update
$ sudo apt install openjdk-8-jdk
```
检查 Java 是否正确安装并查看版本:
```bash
$ java -version
```
配置 JAVA_HOME 环境变量:
编辑 `/etc/profile` 文件或 `~/.bashrc` 文件,添加以下内容:
```bash
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export PATH=$PATH:$JAVA_HOME/bin
```
使配置生效:
```bash
$ source /etc/profile
```
#### 2. 下载并解压 Hadoop
从 Apache 官方网站下载 Hadoop,并将其解压到指定目录。
```bash
$ wget https://downloads.apache.org/hadoop/common/hadoop-2.7.6/hadoop-2.7.6.tar.gz
$ sudo tar -zxvf hadoop-2.7.6.tar.gz -C /usr/local/
$ cd /usr/local/
$ sudo mv hadoop-2.7.6 hadoop
$ sudo chown -R $USER ./hadoop
```
#### 3. 配置环境变量
将 Hadoop 的路径添加到系统环境变量中。编辑 `~/.bashrc` 文件,添加以下内容:
```bash
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
```
使配置生效:
```bash
$ source ~/.bashrc
```
#### 4. 配置 SSH 免密登录
为了在分布式模式下运行 Hadoop,需要配置 SSH 免密登录。
生成 SSH 密钥对:
```bash
$ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
```
将公钥复制到本地主机:
```bash
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
```
测试免密登录:
```bash
$ ssh localhost
```
#### 5. 配置 Hadoop
进入 Hadoop 配置目录:
```bash
$ cd /usr/local/hadoop/etc/hadoop/
```
##### 5.1 修改 `core-site.xml`
编辑 `core-site.xml` 文件,添加以下内容:
```xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
```
##### 5.2 修改 `hdfs-site.xml`
编辑 `hdfs-site.xml` 文件,添加以下内容:
```xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
```
##### 5.3 修改 `mapred-site.xml`
如果文件不存在,可以从模板文件复制:
```bash
$ cp mapred-site.xml.template mapred-site.xml
```
编辑 `mapred-site.xml` 文件,添加以下内容:
```xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
```
##### 5.4 修改 `yarn-site.xml`
编辑 `yarn-site.xml` 文件,添加以下内容:
```xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
```
##### 5.5 修改 `hadoop-env.sh`
编辑 `hadoop-env.sh` 文件,设置 JDK 路径:
```bash
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
```
同时,设置 Hadoop 配置目录:
```bash
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop/
```
#### 6. 格式化 HDFS
在首次启动 Hadoop 前,需要格式化 HDFS:
```bash
$ hdfs namenode -format
```
#### 7. 启动 Hadoop
启动 HDFS 和 YARN 服务:
```bash
$ start-dfs.sh
$ start-yarn.sh
```
检查服务是否正常运行:
```bash
$ jps
```
应显示以下进程(视配置而定):
- NameNode
- DataNode
- SecondaryNameNode
- ResourceManager
- NodeManager
#### 8. 测试 Hadoop
创建一个 HDFS 目录并上传文件进行测试:
```bash
$ hdfs dfs -mkdir /input
$ hdfs dfs -put /path/to/local/file /input
$ hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar wordcount /input /output
```
查看输出结果:
```bash
$ hdfs dfs -cat /output/part-r-00000
```
---
###
阅读全文
相关推荐












