Hadoop集群搭建——环境配置

一、集群搭建注意问题说明

1、此处集群环境搭建我使用了三台主机进行模拟,分别为:

hadoop-series.bxp.com
hadoop-series1.bxp.com
hadoop-series2.bxp.com

2、集群搭建前需要注意的问题:

(1)集群中的节点的用户名登陆名和密码应当保持一致。
(2)hadoop和jdk的安装目录应当保持一致。

以上保持一致不是必须的,只是为了防止环境搭建过程中的不必要的麻烦。

二、主机节点配置

1、修改主机名:

(1)临时修改

hostname  hadoop-series.bxp.com

此方法可以直接生效,但是电脑重启后将会失效。电脑重启将会读取配置文件。

(2)修改配置文件/etc/hostname,填写你的主机名

hadoop-series.bxp.com

使用以上的方法分别将三台的主机的主机名修改为:

hadoop-series.bxp.com
hadoop-series1.bxp.com
hadoop-series2.bxp.com

2、修改/etc/hosts文件,配置主机名到IP地址的映射。

192.168.1.103 hadoop-series.bxp.com hadoop-series
192.168.1.133 hadoop-series1.bxp.com hadoop-series1
192.168.1.135 hadoop-series2.bxp.com hadoop-series2

三、集群搭建

1、分析集群分布

为了提高集群的高可用性,把NameNode,ResourceManager,SecondaryNamenode分别方式在不同的机器上,最终分布如下:

条目主机1主机2主机3
HDFSNameNode, DataNodeDataNodeDataNode, SecondaryNameNode
YARNNodeManagerResourceManager, NodeManagerNodeManager
MapReduceJobHistoryServer

2、根据上述节点非配结果进行配置节点分布,配置各个文件:

(1)hdfs相关配置

hadoop-env.sh(配置hdfs运行环境):

JAVA_HOME=/home/bxp/Documents/install/jdk1.8.0_131

core-site.xml(配置namenode所在主机):


<configuration>
    <!--namenode所在主机-->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://hadoop-series.bxp.com:8020</value>
    </property>
    <!--临时目录-->
    <property>
            <name>hadoop.tmp.dir</name>
            <value>/home/bxp/Documents/install/hadoop-2.6.5/data/tmp</value>
        </property>
    <!--垃圾回收-->
    <property>
            <name>fs.trash.interval</name>
            <value>420</value>
        </property>
</configuration>

hdfs-site.xml(配置secondNameNode所在主机):

<configuration>
    <!-- 副本数量不需要进行控制,默认就可以-->
    <!--    
    <property>
             <name>dfs.replication</name>
            <value>1</value>
        </property>
    -->
    <!-- secondaryNamenode放在第hadoop-series2.bxp.com上-->
    <property>
      <name>dfs.namenode.secondary.http-address</name>
      <value>hadoop-series2.bxp.com:50070</value>
    </property>
</configuration>

slaves(配置dataNode所在主机):

hadoop-series.bxp.com
hadoop-series1.bxp.com
hadoop-series2.bxp.com

(2)YARN相关配置

yarn-env.sh(配置yarn运行环境):

JAVA_HOME=/home/bxp/Documents/install/jdk1.8.0_131

yarn-site.xml(配置resouceManager所在主机):

<configuration>
 <property>
         <name>yarn.nodemanager.aux-services</name>
             <value>mapreduce_shuffle</value>
     </property>

    <!--配置ResourceManager在hadoop-series1.bxp.com上-->
    <property>
             <name>yarn.resourcemanager.hostname</name>
             <value>hadoop-series1.bxp.com</value>
    </property>

    <!--配置日志聚集-->
    <property>
        <name>yarn.log-aggregation-enable</name>
        <value>true</value>
    </property>
    <!--配置日志在文件系统中存放的秒数(604800为7天)-->
    <property>
        <name>yarn.log-aggregation.retain-seconds</name>
        <value>604800</value>
    </property>
</configuration>

slaves(配置NodeManager):

hadoop-series.bxp.com
hadoop-series1.bxp.com
hadoop-series2.bxp.com

(3) MapReduce相关配置

mapred-env.sh(配置mapreduce运行环境):

JAVA_HOME=/home/bxp/Documents/install/jdk1.8.0_131

mapred-site.xml(配置JobHistoryServer所在主机):

<configuration>
    <property>
             <name>mapreduce.framework.name</name>
             <value>yarn</value>
    </property>
    <!--配置job-history-->
    <property>
             <name>mapreduce.jobhistory.address</name>
             <value>hadoop-series1.bxp.com:10020</value>
    </property>
    <property>           <name>mapreduce.jobhistory.webapp.address</name>
             <value>hadoop-series1.bxp.com:19888</value>
    </property>
</configuration>

四、配置节点间的无密钥登陆

配置namenode节点和ResourceManager节点到其他节点的无密钥登陆。

此处配置无密钥登陆可以查看这里——>SSH无密钥登陆 与 配置公钥后仍需要输入密码的解决方案

五、分发已经配置好的hadoop安装包到其他各个节点

scp -r /home/bxp/hadoop  hadoop-series1.bxp.com:/home/bxp
scp -r /home/bxp/hadoop  hadoop-series2.bxp.com:/home/bxp

到这里集群搭建集群搭建的配置已经完毕了,如果想进行一些操作去测试集群的搭建是否成功,可以查看Hadoop启动模式,基本配置,启动方式

### Hadoop分布式集群搭建教程 #### 1. 环境准备 为了构建Hadoop分布式集群,首先需要准备好基础环境。推荐使用的软件版本如下: - **Hadoop版本**: Hadoop2.X 或更高版本[^1]。 - **JDK版本**: JDK1.8 是兼容性性能的最佳选择。 确保每台机器上都安装并配置好Java开发环境,并验证其正确性。可以通过运行 `java -version` 命令确认当前系统的Java版本是否满足需求。 #### 2. 集群规划 Hadoop分布式集群由多个节点组成,通常分为以下几个角色: - NameNode (NN): 负责管理文件系统元数据。 - DataNode (DN): 存储实际的数据块。 - ResourceManager (RM): 调度资源分配给应用程序。 - NodeManager (NM): 执行来自ResourceManager的任务。 在设计阶段,需明确各服务器的角色定位以及网络拓扑结构[^4]。 #### 3. 安装与部署 下载对应版本的Hadoop压缩包至所有目标主机,并解压到指定路径下。例如,在Linux环境下可以执行以下命令完成操作: ```bash tar -zxvf hadoop-*.tar.gz -C /usr/local/ ln -s /usr/local/hadoop-* /usr/local/hadoop ``` 随后进入核心配置目录进行参数调整: ```bash cd /data/soft/hadoop-3.2.0/etc/hadoop ``` 此步骤依据具体安装位置可能有所差异,请参照实际情况修改上述指令中的路径部分[^3]。 #### 4. 核心组件配置 Hadoop集群的核心组成部分主要包括三个主要方面——即HDFS、MapReduceYARN的服务设置[^2]。以下是几个重要XML文件及其功能简介: - **core-site.xml** 定义全局属性如默认FS URI等基本信息; - **hdfs-site.xml** 设定副本因子数量以及其他存储特性选项; - **mapred-site.xml** 关联JobTracker地址用于作业提交流程控制; - **yarn-site.xml** 描述队列管理调度策略等内容。 通过编辑这些文档内的键值对来适配特定业务场景下的工作负载模式。 #### 5. 启动服务 当所有的前期准备工作完成后就可以依次启动各个子系统了。一般顺序为先初始化namenode再分别开启datanodes及其他辅助进程。利用脚本简化这一过程会更加高效便捷: ```bash sbin/start-dfs.sh sbin/start-yarn.sh mr-jobhistory-daemon.sh start historyserver ``` 最后可通过浏览器访问Web UI界面查看状态信息,默认端口分别为50070(旧版)或者9870(NN新UI),还有8088(YARN RM)。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值