云计算复习--数据处理与并行编程

数据密集型计算的概念

计算数据量级为TB或PB级
数据密集型计算的应用:基因工程领域、天文计算领域、商业计算领域

数据本地性概念及意义
概念:数据本地性是指将数据存储在计算节点附近的存储设备中,以减少数据传输延迟和带宽需求。在数据密集型计算中,数据本地性对于提高系统吞吐量具有重要

MapReduce处理海量数据的并行编程模型

HDFS

HDFS采用一种称为块的存储机制,将数据分成多个块进行存储。每个块都有多个副本,以提高数据的可靠性和性能

读取流程:
Client向NameNode发送读取请求。NameNode返回文件位置信息给Client。Client连接到相应的DataNode上读取数据块

写入流程:
Client向NameNode发送写入请求。NameNode返回可写入的DataNode列表给Client。Client连接到一个DataNode,并写入数据块。HDFS自动复制数据块到其他DataNode,确保数据可靠性和性能。

MapReduce的定义与工作流程

MapReduce是一种编程模型,用于大规模数据集的并行处理。它包含两个主要阶段,Map阶段和Reduce阶段

工作流程:
在Map阶段,输入数据被分割成多个小的数据块,并由每个Mapper映射器并行处理,产生一系列键值对的输出。
Reduce阶段:

  1. 合并:在Reduce阶段,相似的值被合并在一起,以便进行批量处理。合并操作包括将多个键值对组合成一个新的键值对,并对值进行汇总、统计或其他形式的处理
  2. 规约器(Reducer)处理
    Reducer将键值对转换成所需的形式或输出。
  3. 输出
    Reduce阶段的输出包括转换后的数据或结果,他们可以被写入文件、数据库或其他存储介质中

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

ˇasushiro

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值