Hadoop集群安装配置详解（第5期）

PDF文件

下载需积分: 9 | 1.26MB | 更新于2024-07-25 | 170 浏览量 | 举报收藏

立即下载

“这篇资源主要介绍了Hadoop集群的安装配置，包括Hadoop的基本概念、角色划分以及环境设置。文章提到了Hadoop是由HDFS和MapReduce两大部分构成的分布式计算平台，详细阐述了NameNode和DataNode在HDFS中的职责，以及JobTracker和TaskTracker在MapReduce中的角色。” 在深入理解Hadoop集群的安装配置之前，首先需要了解Hadoop的基本概念。Hadoop是一个开源的分布式计算框架，由Apache软件基金会维护，旨在提供高可靠性和高容错性的大数据处理能力。它主要由两个核心组件构成：Hadoop分布式文件系统（HDFS）和MapReduce。 HDFS是一个分布式文件系统，其设计目标是为了在廉价硬件上运行，提供高吞吐量的数据访问。NameNode是HDFS的主节点，负责管理文件系统的命名空间，确保文件系统的元数据（如文件名、文件位置等）的一致性。DataNode则是从属节点，负责实际的数据存储和数据块的读写操作。多个DataNode形成一个集群，提供数据冗余和容错能力。 MapReduce是Hadoop的并行计算模型，它借鉴了Google的MapReduce思想。JobTracker是MapReduce的主节点，它负责作业的调度，将任务分解为Map任务和Reduce任务，并分配给TaskTracker执行。TaskTracker是工作节点，接收JobTracker的指令，执行指定的任务，并向JobTracker报告任务状态。在处理大规模数据时，MapReduce通过在DataNode上本地执行任务，减少数据的网络传输，提高效率。在实际部署Hadoop集群时，通常会有一个Master节点，负责运行NameNode和JobTracker，以及可能的其他主服务，如Secondary NameNode或ResourceManager（在Hadoop 2.x的YARN中）。而多个Slave节点则运行DataNode和TaskTracker（在Hadoop 2.x中变为NodeManager）。集群中的所有节点需要在同一个网络环境中，能够相互通信。在本文中提到的环境中，有一个Master节点和三个Slave节点，这些节点通过局域网连接，并且配置了相应的IP地址。在安装配置Hadoop时，需要在各个节点上安装相同版本的Hadoop软件，配置相应的环境变量、主机名解析和启动脚本。此外，还需要配置HDFS的namenode和datanode，以及MapReduce的jobtracker和tasktracker。 Hadoop集群的安装配置涉及到多方面的步骤，包括但不限于软件安装、环境配置、集群间通信的设置以及服务的启动和测试。这是一项复杂的工作，但完成之后，就可以利用Hadoop的强大能力处理海量数据，进行分布式计算。

创建时间：2012/2/26 修改时间：2012/3/17 修改次数：1

2、SSH无密码验证配置

Hadoop 运行过程中需要管理远端 Hadoop 守护进程，在 Hadoop 启动以后，NameNode

是通过 SSH（Secure Shell）来启动和停止各个 DataNode 上的各种守护进程的。这就必须在

点之间执行指令的时候是不需要输入密码的形式，故我们需要配置 SSH 运用无密码公钥

登录并启动 DataName 进程，同样原理，

ataNode 上也能使用 SSH 无密码登录到 NameNode。

节

认证的形式，这样 NameNode 使用 SSH 无密码

2.1 安装和启动SSH协议

在“Hadoop 集群（第 1 期）”安装 CentOS6.0 时，我们选择了一些基本安装包，所以我

们需要两个服务：ssh 和 rsync 已经安装了。可以通过下面命令查看结果显示如下：

rpm –qa | grep openssh

rpm –qa | grep rsync

假设没有安装 ssh 和 rsync，可以通过下面命令进行安装。

yum install ssh 安装 SSH 协议

yum install rsync （rsync 是一个远程数据同步工具，可通过 LAN/WAN 快速同步多台主机间

的文件）

service sshd restart 启动服务

确保所有的服务器都安装，上面命令执行完毕，各台机器之间可以通过密码验证相互登。

.2 配置Master无密码登录所有Salve

r（Nam

eNode | JobTracker）作为客户端，要实现无密码公钥认证，连接到服务器

时，需要在 Master 上生成一个密钥对，包括一个公钥和一

私钥，而后将公钥复制到所有的 Slave 上。当 Master 通过 SSH 连接 Salve 时，Salve 就会

数之后再用私钥解密，并将解密数回传给 Slave，Slave 确认解密数无误之后就允许 Master

1）SSH 无密码原理

Maste

Salve（DataNode | Tasktracker）上

个

生成一个随机数并用 Master 的公钥对随机数进行加密，并发送给 Master。Master 收到加密

河北工业大学——软件工程与理论实验室编辑：虾皮

剩余43页未读，继续阅读

happypengxing

粉丝: 0

Hadoop集群安装配置详解（第5期）

细细品味hadoop

细细品味Storm_Storm简介及安装

细细品味Hadoop_Hadoop集群（第2期）_机器信息分布表

细细品味Hadoop_Hadoop集群（第5期副刊）_JDK和SSH无密码配置

细细品味Hadoop_Hadoop集群CentOS安装配置.rar_hadoop

细细品味Hadoop_Hadoop集群VSFTP安装配置.rar_hadoop

细细品味Hadoop_Hadoop集群（第9期）_MapReduce初级案例

大数据与云计算培训学习资料 Hadoop集群 细细品味Hadoop_第5期_Hadoop安装配置 共44页.pdf

大数据与云计算培训学习资料 Hadoop集群 细细品味Hadoop_第5期副刊_JDK和SSH无密码配置 共9页.pdf

大数据与云计算培训学习资料 Hadoop集群 细细品味Hadoop_第6期_WordCount运行详解 共18页.pdf

最新资源

大数据与云计算培训学习资料 Hadoop集群细细品味Hadoop_第5期_Hadoop安装配置共44页.pdf

大数据与云计算培训学习资料 Hadoop集群细细品味Hadoop_第5期副刊_JDK和SSH无密码配置共9页.pdf

大数据与云计算培训学习资料 Hadoop集群细细品味Hadoop_第6期_WordCount运行详解共18页.pdf