强烈建议先看一遍hadoop伪分布式集群搭建,然后再按本文的hadoop完全分布式集群搭建进行配置。
集群规划
四台服务器,分别为layne1~4,分布如下:
- layne1作为NameNode服务器
- layne2作为SecondaryNameNode和DataNode服务器
- layne3、layne4作为DataNode服务器
HDFS完全分布式搭建
详细步骤如下:
1、四台服务器之间互相均可以免密登录
可参考我之前的博客多台服务之间免密登陆
2、四台服务器JDK安装并配置环境变量
可参考rpm安装jdk
3、先在layne1上配置好,然后将配置好的hadoop拷贝到layne2~layne4上,这里所有配置都先在layne1上进行。
将hadoop安装包拷贝到layne1上并解压,然后进行如下配置:
(1)配置hadoop-env.sh
由于通过SSH远程启动进程的时候默认不会加载/etc/profile设置,JAVA_HOME变量就加载不到,需要手动指定。
在/opt/hadoop-2.6.5
下,输入vim ./etc/hadoop/hadoop-env.sh
,找到JAVA_HOME所在的行,并改为export JAVA_HOME=/usr/java/default
。
[root@layne1 hadoop-2.6.5]# pwd
/opt/hadoop-2.6.5
[root@layne1 hadoop-2.6.5]# cd ./etc/hadoop/
[root@layne1 hadoop]# vim hadoop-env.sh
(2)修改slaves指定DataNode的