Linux云计算 |【第五阶段】ARCHITECTURE-DAY3

主要内容:

了解Hadoop与大数据的关系,理解HDFS、Mapreduce、Yarn的架构、调用Hadoop执行数据分析的方法、搭建分布式Hadoop执行;

一、大数据概述

背景介绍:

随著计算机技术的发展,互联网的普及,信息的积累已经到了一个非常庞大的地步,信息的增长也在不断的加快,随着互联网、物联网建设的加快,信息更是爆炸式增长,收集、检索、统计这些信息越发困难,必须使用新的技术来解决这些问题;大数据指无法在一定时间范围内,用常规软件工具进行捕捉、管理和处理的数据集合,需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产;是指从各种各样类型的数据中,快速获得有价值的信息;

大数据(Big Data)是指在传统数据处理软件无法处理的规模、速度和复杂性下生成和收集的数据集合。大数据技术涉及从这些大规模数据集中提取有价值的信息和洞察力。

大数据的五个主要特征,通常被称为“5V”:(中级系统项目管理工程师)

  1. Volume(容量):大数据的容量非常大,通常以TB、PB甚至EB为单位。数据来源广泛,包括社交媒体、传感器、交易记录等。
  2. Velocity(速度):大数据的生成和处理速度非常快,需要实时或近实时处理。数据流可以是连续的,需要快速分析和响应。
  3. Variety(多样性):大数据的类型多样,包括结构化数据(如数据库中的表格数据)、半结构化数据(如JSON、XML)和非结构化数据(如文本、图像、音频、视频)。数据来源多样,包括社交媒体、传感器、日志文件等。
  4. Veracity(真实性):大数据的真实性和质量是一个重要问题,因为数据可能包含噪声、错误或不完整的信息。数据清洗和预处理是确保数据质量的关键步骤。
  5. Value(价值)

大数据技术在各个行业和领域都有广泛的应用,包括但不限于:商业智能、金融、医疗、零售、社交媒体

大数据技术栈:

用于数据的收集、存储、处理和分析

数据收集

  • 数据收集工具和技术用于从各种来源收集数据,如传感器、社交媒体、日志文件等。
  • 常见的工具包括Flume、Scribe、Kafka等。

数据存储

  • 大数据存储技术用于存储大规模数据,通常采用分布式存储系统。
  • 常见的存储系统包括Hadoop HDFS、Amazon S3、Google Cloud Storage等。

数据处理

  • 大数据处理技术用于处理和分析大规模数据,通常采用分布式计算框架。
  • 常见的处理框架包括Hadoop MapReduce、Spark、Flink等。

数据分析

  • 大数据分析技术用于从数据中提取有价值的信息和洞察力。
  • 常见的分析工具包括Hive、Pig、Impala、Presto等。

数据可视化

  • 数据可视化工具用于将分析结果以图形化的方式展示,帮助用户理解和解释数据。
  • 常见的可视化工具包括Tableau、Power BI、D3.js等。

1、Hadoop生态系统介绍

Hadoop是一个开源的分布式计算框架,最初由Apache基金会开发,用于处理大规模数据集。Hadoop生态系统是一个由多个组件和工具组成的集合,这些组件和工具协同工作,提供了一个完整的大数据处理解决方案。

Hadoop生态系统的优势:

  • 高可扩展性:支持水平扩展,可通过增加节点来扩展集群的存储和计算能力
  • 高容错性:HDFS和MapReduce设计了高容错机制,确保数据和计算任务的可靠性
  • 多样化的数据处理能力:提供多种数据处理工具和框架,支持批处理、实时处理、数据仓库等
  • 开源和社区支持:拥有庞大的社区支持,提供了丰富的文档、教程和第三方工具

起源:2003年开始Google发表3篇论文:GFS、MapReduce、BigTable(核心组件)

  • ① GFS是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用,可以运行于廉价的普通硬件上,提供容错功能。
  • ② MapReduce是针对分布并行计算的一套编程模型,由Map和Reduce组成,Map是映射,把指令分发到多个worker上,Reduce是规约,把worker计算出的结果合并。
  • ③ BigTable是存储结构化数据的数据库,建立在GFS、Scheduler、Lock Service和MapReduce之上。

2、Hadoop生态系统组件介绍  

1)Hadoop核心组件

① Hadoop Distributed File System (HDFS)

  • - 功能:HDFS是Hadoop的分布式文件系统,用于存储大规模数据集。
    - 特点:高容错性、高吞吐量、适合大规模数据存储。
    - 工作原理:数据被分成块并存储在多个节点上,每个块有多个副本以确保数据可靠性。

② MapReduce

  • - 功能:MapReduce是Hadoop的编程模型,用于处理和生成大规模数据集。
    - 特点:分布式计算、适合批处理任务。
    - 工作原理:数据处理任务被分成Map和Reduce两个阶段,Map阶段将数据映射成键值对,Reduce阶段对这些键值对进行汇总和处理。

HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起

2)Hadoop生态系统组件

① YARN (Yet Another Resource Negotiator)

  • 功能:YARN是Hadoop的资源管理器,用于管理和调度集群资源
  • 特点:支持多种计算框架,如MapReduce、Spark等。
  • 工作原理:YARN将资源管理和作业调度分离,提高了集群的资源利用率和灵活性。

② HBase

  • 功能:HBase是一个分布式、面向列的NoSQL数据库,构建在HDFS之上。
  • 特点:高可扩展性、高吞吐量、适合实时读写操作。
  • 应用场景:实时数据存储和查询,如日志分析、实时监控等。

③ Hive

  • 功能:Hive是一个数据仓库工具,用于查询和管理大规模数据集
  • 特点:支持SQL查询、适合批处理任务。
  • 工作原理:Hive将SQL查询转换为MapReduce任务执行。

④ Pig

  • 功能:Pig是一个高级数据流语言和执行框架,用于处理大规模数据集
  • 特点:支持脚本语言Pig Latin、适合ETL(Extract, Transform, Load)任务。
  • 工作原理:Pig将Pig Latin脚本转换为MapReduce任务执行。

⑤ Sqoop

  • 功能:Sqoop是一个用于在Hadoop和关系型数据库之间传输数据的工具
  • 特点:支持批量数据导入导出、适合数据集成任务。
  • 工作原理:Sqoop将数据从关系型数据库导入HDFS或从HDFS导出到关系型数据库。

⑥ Flu

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小安运维日记

Hey~ 感谢您的充电支持!!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值