Hadoop云计算2.0笔记第一课Hadoop介绍
需积分: 0 174 浏览量
更新于2013-11-28
收藏 2.09MB DOCX 举报
Hadoop 云计算 2.0 笔记第一课 Hadoop 介绍
Hadoop 云计算 2.0 笔记第一课 Hadoop 介绍中,我们可以了解到 Hadoop 的生态系统特点、Hadoop 生态系统概况、Hadoop 生态系统版本衍化、下一代 Hadoop、Hadoop 学习经验等方面的知识点。
1. Hadoop 生态系统特点:
Hadoop 的生态系统特点包括源代码开源、社区活跃、参与者众多、涉及分布式存储和计算的方方面面、已经得到企业界验证等。
2. Hadoop 生态系统概况:
Hadoop 的生态系统概况中,MapReduce 和 HDFS 是 Hadoop 的内核。其中,HDFS 是 Hadoop розпределённой файловой системой,包括 Namenode、Secondary Namenode、DataNode 等组件。
3. HDFS(Hadoop Distributed File System):
HDFS 是 Hadoop 分布式文件系统,主要组件包括 Namenode、Secondary Namenode、DataNode 等。其中,Namenode 负责管理 HDFS 的名称空间,管理数据块(切割成一个个数据块),映射信息,配置副本策略,处理客户端读写请求。DataNode 负责存储实际的数据块。Secondary Namenode 负责并非 NameNode 的热备,辅助 NameNode,分担其工作量,定期合并 fsimage 和 fsedits,推送给 NameNode,在紧急情况下,可以辅助恢复 NameNode。
4. MapReduce(分布式计算框架):
MapReduce 是一种分布式计算框架,源自于 Google 的 MapReduce 论文,发表于 2004 年 12 月。MapReduce 的特点包括易于编程、良好的扩展性、高容错性,适合 PB 级以上的海量数据的离线处理。
5. MapReduce 架构:
MapReduce 的架构中,JobTracker 是作业跟踪器,负责管理所有作业处理,包括将作业分解成一系列任务,将任务指派给 TaskTracker,监控任务状态,决定哪些文件参与,然后切割 task 病分配节点。TaskTracker 是任务跟踪器,负责运行 Map Task 和 Reduce Task,与 JobTracker 交互,执行命令,并汇报任务状态。
6. Map 和 Reduce 任务:
Map 任务负责解析每条数据记录,传递给用户编写的 map(),将 map() 输出数据写入本地磁盘。Reduce 任务负责从 Map Task 上远程读取输入数据,对数据排序,将数据按照分组传递给用户编写的 reduce() 逻辑。
7. Hadoop 学习经验:
在学习 Hadoop 时,需要了解 Hadoop 的生态系统特点、Hadoop 生态系统概况、Hadoop 生态系统版本衍化、下一代 Hadoop 等方面的知识点,并且需要了解 HDFS 和 MapReduce 的架构和原理。
Hadoop 云计算 2.0 笔记第一课 Hadoop 介绍为我们提供了 Hadoop 的生态系统特点、Hadoop 生态系统概况、HDFS 和 MapReduce 的架构和原理等方面的知识点,对于学习 Hadoop 和云计算非常有帮助。

徐刑瑞
- 粉丝: 4
最新资源
- matlab-Matlab资源
- 【DevOps领域】DevOps流程落地实战指南:涵盖代码管理、持续集成、容器化部署与自动化运维的全流程实践
- 深度学习图像分类领域的新手入门指导教程
- 卫星拍摄下的水体图像语义分割数据集(约2300张数据和标签,已处理完可以直接训练,2类别图像分割)
- 微服务与前端开发实战指南
- yiwa-机器人开发资源
- nexfly-AI人工智能资源
- salvo-Rust资源
- 编程语言Go语言特性解析与应用开发:涵盖高效并发编程、跨平台支持及命令行工具开发
- 基于深度学习的无线通信论文与代码整理
- Web开发PHP服务器端脚本语言特性、功能及应用场景详解:从简单示例到项目实践
- tpframe-移动应用开发资源
- STM32F103RCT6-单片机开发资源
- vue3-ts-cesium-map-show-Typescript资源
- PandaX-Go资源
- 【单片机开发】从基础到实践:涵盖硬件组成、开发环境搭建、编程基础、外设接口、系统设计进阶、调试优化及实际项目案例