Linux云计算 |【第五阶段】ARCHITECTURE-DAY3-CSDN博客

本文链接：https://blog.csdn.net/AnJern/article/details/142988315

主要内容：

了解Hadoop与大数据的关系，理解HDFS、Mapreduce、Yarn的架构、调用Hadoop执行数据分析的方法、搭建分布式Hadoop执行；

一、大数据概述

背景介绍：

随著计算机技术的发展，互联网的普及，信息的积累已经到了一个非常庞大的地步，信息的增长也在不断的加快，随着互联网、物联网建设的加快，信息更是爆炸式增长，收集、检索、统计这些信息越发困难，必须使用新的技术来解决这些问题；大数据指无法在一定时间范围内，用常规软件工具进行捕捉、管理和处理的数据集合，需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产；是指从各种各样类型的数据中，快速获得有价值的信息；

大数据（Big Data）是指在传统数据处理软件无法处理的规模、速度和复杂性下生成和收集的数据集合。大数据技术涉及从这些大规模数据集中提取有价值的信息和洞察力。

大数据的五个主要特征，通常被称为“5V”：（中级系统项目管理工程师）

Volume（容量）：大数据的容量非常大，通常以TB、PB甚至EB为单位。数据来源广泛，包括社交媒体、传感器、交易记录等。

Velocity（速度）：大数据的生成和处理速度非常快，需要实时或近实时处理。数据流可以是连续的，需要快速分析和响应。

Variety（多样性）：大数据的类型多样，包括结构化数据（如数据库中的表格数据）、半结构化数据（如JSON、XML）和非结构化数据（如文本、图像、音频、视频）。数据来源多样，包括社交媒体、传感器、日志文件等。

Veracity（真实性）：大数据的真实性和质量是一个重要问题，因为数据可能包含噪声、错误或不完整的信息。数据清洗和预处理是确保数据质量的关键步骤。

Value（价值）

大数据技术在各个行业和领域都有广泛的应用，包括但不限于：商业智能、金融、医疗、零售、社交媒体

大数据技术栈：

用于数据的收集、存储、处理和分析

数据收集：

数据收集工具和技术用于从各种来源收集数据，如传感器、社交媒体、日志文件等。

常见的工具包括Flume、Scribe、Kafka等。

数据存储：

大数据存储技术用于存储大规模数据，通常采用分布式存储系统。

常见的存储系统包括Hadoop HDFS、Amazon S3、Google Cloud Storage等。

数据处理：

大数据处理技术用于处理和分析大规模数据，通常采用分布式计算框架。

常见的处理框架包括Hadoop MapReduce、Spark、Flink等。

数据分析：

大数据分析技术用于从数据中提取有价值的信息和洞察力。

常见的分析工具包括Hive、Pig、Impala、Presto等。

数据可视化：

数据可视化工具用于将分析结果以图形化的方式展示，帮助用户理解和解释数据。

常见的可视化工具包括Tableau、Power BI、D3.js等。

1、Hadoop生态系统介绍

Hadoop是一个开源的分布式计算框架，最初由Apache基金会开发，用于处理大规模数据集。Hadoop生态系统是一个由多个组件和工具组成的集合，这些组件和工具协同工作，提供了一个完整的大数据处理解决方案。

Hadoop生态系统的优势：

高可扩展性：支持水平扩展，可通过增加节点来扩展集群的存储和计算能力
高容错性：HDFS和MapReduce设计了高容错机制，确保数据和计算任务的可靠性
多样化的数据处理能力：提供多种数据处理工具和框架，支持批处理、实时处理、数据仓库等
开源和社区支持：拥有庞大的社区支持，提供了丰富的文档、教程和第三方工具

起源：2003年开始Google发表3篇论文：GFS、MapReduce、BigTable（核心组件）

① GFS是一个可扩展的分布式文件系统，用于大型的、分布式的、对大量数据进行访问的应用，可以运行于廉价的普通硬件上，提供容错功能。
② MapReduce是针对分布并行计算的一套编程模型，由Map和Reduce组成，Map是映射，把指令分发到多个worker上，Reduce是规约，把worker计算出的结果合并。
③ BigTable是存储结构化数据的数据库，建立在GFS、Scheduler、Lock Service和MapReduce之上。