file-type

CentOS7环境下Hadoop-3.1.3安装包发布

GZ文件

下载需积分: 13 | 282.91MB | 更新于2024-12-05 | 36 浏览量 | 86 下载量 举报 收藏
download 立即下载
Hadoop是一种开源的分布式存储和计算框架,由Apache软件基金会支持开发,主要用于处理大规模数据集。Hadoop的核心是HDFS(Hadoop分布式文件系统)和MapReduce编程模型。HDFS为存储大数据提供了高吞吐量的访问,而MapReduce为数据处理提供了并行计算能力。Hadoop-3.1.3版本相较于早期版本进行了一系列的更新和改进,包括但不限于核心架构的优化、性能的提升、新功能的增加以及对已知问题的修复。" Hadoop框架的组成: 1. HDFS(Hadoop分布式文件系统):负责海量数据的存储,能够存储PB级别的数据量。它通过将数据分割成块(block),然后在多个服务器上分布存储这些块来实现高容错性和高可靠性。 2. MapReduce:是一种编程模型,用于处理大规模数据集的并行运算。它通过Map(映射)和Reduce(归约)两个操作来实现数据的处理流程。Map阶段并行处理输入数据,产生中间结果;Reduce阶段对中间结果进行汇总处理。 3. YARN(Yet Another Resource Negotiator):是Hadoop的资源管理平台,负责资源的调度和任务的监控管理。YARN通过引入资源管理器(ResourceManager)、节点管理器(NodeManager)和应用程序历史服务器(ApplicationHistoryServer)等组件,优化了资源的分配和作业调度。 Hadoop-3.1.3版本新特性: - 引入了对Kerberos认证的支持,增强了集群的安全性。 - 改进的调度器性能和扩展性,支持更多的调度策略。 - 对Hadoop文件系统(HDFS)进行了优化,支持大集群和高吞吐量的需求。 - 改善了对容器技术的支持,如Docker和Kubernetes,以便更容易部署和管理。 - 新增的运维工具和API,方便用户更有效地监控和管理Hadoop集群。 - 提升了对云存储服务的支持,例如支持Amazon S3和Azure Blob Storage。 在CentOS 7上安装Hadoop: 1. 准备工作:确保服务器满足Hadoop运行的系统要求,包括Java环境和SSH免密登录配置。 2. 安装Java:Hadoop运行需要Java环境,可以在CentOS 7上通过Yum安装OpenJDK。 3. 设置SSH免密登录:Hadoop集群内的节点间通信需要使用SSH,需要配置免密登录以便无密码访问各个节点。 4. 配置Hadoop:解压Hadoop安装包,并修改相关配置文件,如`core-site.xml`、`hdfs-site.xml`、`mapred-site.xml`和`yarn-site.xml`,根据实际需求设置相应的参数。 5. 格式化HDFS文件系统:首次安装Hadoop后,需要格式化HDFS文件系统。 6. 启动Hadoop集群:使用Hadoop提供的脚本启动NameNode、DataNode、ResourceManager、NodeManager等进程。 Hadoop的使用场景包括: - 大数据分析:处理PB级别的数据集,进行数据挖掘和机器学习。 - 日志处理:分析和处理大量网站日志或应用日志。 - 存储解决方案:利用HDFS存储非结构化数据,并为数据处理提供高性能。 - 机器学习和数据科学:作为数据存储和初步处理的平台,为后续的数据科学分析提供支持。 针对Hadoop的优化策略: - 参数调优:通过调整Hadoop配置文件中的参数,优化性能。 - 硬件升级:增加内存、提高CPU速度、使用更快的硬盘(如SSD)。 - 软件优化:对Hadoop本身的代码进行调优,或者引入第三方优化工具。 - 网络优化:升级网络硬件,提高网络带宽和减少延迟。 - 应用程序优化:改进MapReduce作业的代码逻辑,减少不必要的数据处理。 标签:"hadoop" 说明该文件包是与Hadoop相关的资源,可能包含有关安装、配置、使用Hadoop的说明或数据。文件列表中仅包含 "hadoop-3.1.3",表明这是一个特定版本的Hadoop,用户可以将其解压后进行安装和配置,以构建分布式存储和计算环境。

相关推荐

filetype

用空格隔开 如果敲错了 按下ctrl+backspace可以删除 注意一定要有四个)" one two three four if [ ! -n $four ] then echo "Args Number Input Error..." exit; fi}# 获取用户的8个配置文件存放路径和将要安装的目录function getFilesAndTargetDir(){ read -p "请输入你的软件包路径(绝对路径)" softwareDir read -p "请输入你的8个配置文件存放路径(配置文件已修改好 绝对路径)" filesDir read -p "你想要将HA安装在哪个目录下(空目录 绝对路径)" targetDir}function getUserPathFileName(){ read -p "你的环境变量配置文件名:(在/etc/profile.d/下 例如my_path.sh 只要文件名)" pathFileName}# 1 function unpackSoftwarePackage(){ echo "----------一、解压软件包----------" sleep 2 echo "----------1.创建hadoop HA高可用目录:$targetDir/----------" if [ ! -d "$targetDir/" ];then mkdir $targetDir/ fi echo "----------2.解压JDK----------" tar -xzvf $softwareDir/jdk-8u202-linux-x64.tar.gz -C $targetDir/ echo "----------3.解压hadoop----------" tar -xzvf $softwareDir/hadoop-3.1.3.tar.gz -C $targetDir/ echo "----------4.解压zookeeper----------" tar -xzvf $softwareDir/apache-zookeeper-3.5.7-bin.tar.gz -C $targetDir/ echo "----------第一步已完成----------" return 0}# 2 function changeName(){ echo "----------二、改名----------" sleep 2 echo "----------1.重命名Zookeeper----------" mv $targetDir/apache-zookeeper-3.5.7-bin/ $targetDir/zookeeper echo "----------2.重命名JDK----------" mv $targetDir/jdk1.8.0_202/ $targetDir/jdk1.8 echo "----------第二步已完成----------" return 0}# 3function copyConfigurationFiles(){ echo "----------三、修改八个配置文件----------" sleep 2 echo "----------1.修改hadoop下的6个文件----------" cat $filesDir/core-site.xml > $targetDir/hadoop-3.1.3/etc/hadoop/core-site.xml cat $filesDir/hdfs-site.xml > $targetDir/hadoop-3.1.3/etc/hadoop/hdfs-site.xml cat $filesDir/mapred-site.xml > $targetDir/hadoop-3.1.3/etc/hadoop/mapred-site.xml cat $filesDir/yarn-site.xml > $targetDir/hadoop-3.1.3/etc/hadoop/yarn-site.xml cat $filesDir/workers > $targetDir/hadoop-3.1.3/etc/hadoop/workers cat $filesDir/hadoop-env.sh > $targetDir/hadoop-3.1.3/etc/hadoop/hadoop-env.sh echo "----------2.修改zookeeper下的1个文件----------" mv $targetDir/zookeeper/conf/zoo_sample.cfg $targetDir/zookeeper/conf/zoo.cfg cat $filesDir/zoo.cfg > $targetDir/zookeeper/conf/zoo.cfg echo "----------3.修改环境变量----------" cat $filesDir/$pathFileName > /etc/profile.d/$pathFileName source /etc/profile.d/$pathFileName echo "----------4.安装psmisc插件----------" sudo yum install -y psmisc ssh $two "sudo yum install -y psmisc" echo "----------第三步已完成----------" return 0}# 4.function createDir(){ echo "----------四、创建目录----------" sleep 2 echo "----------1.创建zkData高可用目录----------" mkdir $targetDir/zookeeper/zkData touch $targetDir/zookeeper/zkData/myid echo "----------2.创建Hadoop数据临时目录----------" mkdir $targetDir/tmp echo "----------3.创建JournalNode日志目录----------" mkdir $targetDir/logs echo "----------第四步已完成----------" return 0}# 5.function xsyncHA(){ echo "----------五、分发HA目录----------" sleep 2 xsync $targetDir/ echo "----------1.分发环境变量配置文件----------" for i in $two $three $four do sudo scp /etc/profile.d/$pathFileName $i:/etc/profile.d/ done echo "----------2.刷新环境变量----------" for i in $two $three $four do ssh $i "source /etc/profile.d/$pathFileName" done echo "----------第五步已完成----------" return 0}# 6.function changeMyIdOfZK(){ echo "----------六、修改zookeeper的myid 使用ssh方式----------" sleep 2 echo "---------- 修改two的myid文件------------" ssh $two "echo '1' >> $targetDir/zookeeper/zkData/myid" echo "---------- 修改three的myid文件------------" ssh $three "echo '2' >> $targetDir/zookeeper/zkData/myid" echo "---------- 修改four的myid文件------------" ssh $four "echo '3' >> $targetDir/zookeeper/zkData/myid" echo "----------第六步已完成----------"}# 7.function startZKOnThreeNode(){ echo "----------七、启动ZK----------" sleep 2 echo "----------启动zookeeper----------" for i in $two $three $four do echo ---------- zookeeper $i 启动 ------------ ssh $i "$targetDir/zookeeper/bin/zkServer.sh start" done echo "----------第七步已完成----------"}# 8.function startHadoop(){ echo "----------八、启动hadoop----------" sleep 2 echo "----------1.启动JournalNode----------" for i in $one $two $three do echo ---------- hadoop $i JournalNode启动 ------------ ssh $i "hdfs --daemon start journalnode" done echo "----------2.初始化NameNode----------" hdfs namenode -format echo "----------3.初始化Zookeeper----------" ssh $two "hdfs zkfc -formatZK" echo "----------4.启动两个NameNode----------" hdfs --daemon start namenode ssh $two "hdfs namenode -bootstrapStandby" echo "----------5.启动集群----------" start-dfs.sh echo "----------第八步已完成----------" echo "----------Hadoop HA高可用搭建已完成----------"}# 调用上述函数完成安装HAtestReadgetFilesAndTargetDirgetUserPathFileNameunpackSoftwarePackagechangeNamecopyConfigurationFilescreateDirxsyncHAchangeMyIdOfZKstartZKOnThreeNodestartHadoop123

清风如意了
  • 粉丝: 0
上传资源 快速赚钱