使用两台Centos7系统搭建Hadoop-3.1.4完全分布式集群

最新推荐文章于 2024-04-02 13:26:00 发布

原创

最新推荐文章于 2024-04-02 13:26:00 发布 · 1k 阅读

23 ·

CC 4.0 BY-SA版权

文章标签：

#分布式 #hadoop #大数据

本文介绍了大数据时代的核心技术词汇，如Hadoop生态（包括HDFS、HBase、Hive等）、分布式计算框架（如MapReduce、Spark、Flink），以及关键组件如YARN和数据处理工具。详细指导如何在Centos7系统上搭建Hadoop3.1.4的完全分布式集群，包括集群准备、配置和启动过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

未来的竞争，是数据之争。大数据本质上是Hadoop的生态群，下面是常用技术词汇

ETL：代表提取、转换和加载。
Hadoop：分布式系统基础架构
HDFS：分布式文件系统
HBase：大数据的NoSQL数据库
Hive：数据仓库工具
DAG ：第二代计算引擎
Spark：第三代数据处理引擎
Flink：第四代数据处理引擎
MapReduce：最初的并行计算框架
Sqoop：nosql数据库和传统数据库之间传输数据的工具
Hive：数据仓库工具
Storm：分布式实时计算系统
Flume：分布式的海量日志采集系统。
Kafka：分布式发布订阅消息系统
ElasticSearch：分布式搜索引擎
Kibana：ElasticSearch大数据的图形化展示工具
Logstash：Elasticsearch 的传送带
Neo4j：nosql图形数据库
Oozie：工作流调度系统 -YARN：作业调度和集群资源管理的框架

使用两台Centos7系统搭建Hadoop-3.1.4完全分布式集群

Hadoop集群

大数据是基于集群的分布式系统。所谓集群是指一组独立的计算机系统构成的一多处理器系统，它们之间通过网络实现进程间的通信，让若干台计算机联合起来工作(服务)，可以是并行的，也可以是做备份。

分布式：分布式的主要工作是分解任务，将职能拆解，多个人在一起做不同的事
集群：集群主要是将同一个业务，部署在多个服务器上，多个人在一起做同样的事

Hadoop介绍

Hadoop是Apache旗下的一个用Java语言实现开源软件框架，是一个存储和计算大规模数据的软件平台。

Hadoop是Apache Lucene创始人 Doug Cutting 创建的，最早起源一个Nutch项目。

2003年Google发表了一篇GFS论文，为大规模数据存储提供了可行的解决方案。
2004年 Google发表论文MapReduce系统，为大规模数据计算提供可行的解决方案。Nutch的开发人员以谷歌的论文为基础，完成了相应的开源实现HDFS和MAPREDUCE，并从Nutch中剥离成为独立项目Hadoop。
到2008年1月，Hadoop成为Apache顶级项目，迎来了它的快速发展期。
如今，国内外的互联网巨头基本都在使用Hadoop框架作为大数据解决方案，越来越多的企业将Hadoop 技术作为进入大数据领域的必备技术。

目前，Hadoop发行版本分为开源社区版和商业版。

开源社区版:指由Apache软件基金会维护的版本，是官方维护的版本体系,版本丰富，兼容性稍差。
商业版:指由第三方商业公司在社区版Hadoop基础上进行了一些修改、整合以及各个服务组件兼容性测试而发行的版本，比较著名的有cloudera的CDH等。

开源社区版本：一般使用2.x版本系列，3.x版本系列:该版本是最新版本，但是还不太稳定。

废话不说了，开始今天的主题：使用三台Centos7系统搭建Hadoop2.X完全分布式集群

去年使用CentOS 7搭建了hadoop3.X分布式集群，由于换了电脑，考虑到电脑安装了很多前其他的东西，这次是使用二台Centos7系统搭建Hadoop完全分布式集群，虽然Centos更新到8版本，但是很多大数据学习都是选择基于Centos7系统搭建。这里不搭建一台的伪分布式，搭建的版本是目前Haddop3.X稳定的Hadoop-3.1.4。

去年对应的文章教程：

https://blog.csdn.net/weixin_44510615/article/details/104625802
https://blog.csdn.net/weixin_44510615/article/details/106540129