Hadoop云计算2.0笔记第一课Hadoop介绍

preview
需积分: 0 2 下载量 174 浏览量 更新于2013-11-28 收藏 2.09MB DOCX 举报
Hadoop 云计算 2.0 笔记第一课 Hadoop 介绍 Hadoop 云计算 2.0 笔记第一课 Hadoop 介绍中,我们可以了解到 Hadoop 的生态系统特点、Hadoop 生态系统概况、Hadoop 生态系统版本衍化、下一代 Hadoop、Hadoop 学习经验等方面的知识点。 1. Hadoop 生态系统特点: Hadoop 的生态系统特点包括源代码开源、社区活跃、参与者众多、涉及分布式存储和计算的方方面面、已经得到企业界验证等。 2. Hadoop 生态系统概况: Hadoop 的生态系统概况中,MapReduce 和 HDFS 是 Hadoop 的内核。其中,HDFS 是 Hadoop розпределённой файловой системой,包括 Namenode、Secondary Namenode、DataNode 等组件。 3. HDFS(Hadoop Distributed File System): HDFS 是 Hadoop 分布式文件系统,主要组件包括 Namenode、Secondary Namenode、DataNode 等。其中,Namenode 负责管理 HDFS 的名称空间,管理数据块(切割成一个个数据块),映射信息,配置副本策略,处理客户端读写请求。DataNode 负责存储实际的数据块。Secondary Namenode 负责并非 NameNode 的热备,辅助 NameNode,分担其工作量,定期合并 fsimage 和 fsedits,推送给 NameNode,在紧急情况下,可以辅助恢复 NameNode。 4. MapReduce(分布式计算框架): MapReduce 是一种分布式计算框架,源自于 Google 的 MapReduce 论文,发表于 2004 年 12 月。MapReduce 的特点包括易于编程、良好的扩展性、高容错性,适合 PB 级以上的海量数据的离线处理。 5. MapReduce 架构: MapReduce 的架构中,JobTracker 是作业跟踪器,负责管理所有作业处理,包括将作业分解成一系列任务,将任务指派给 TaskTracker,监控任务状态,决定哪些文件参与,然后切割 task 病分配节点。TaskTracker 是任务跟踪器,负责运行 Map Task 和 Reduce Task,与 JobTracker 交互,执行命令,并汇报任务状态。 6. Map 和 Reduce 任务: Map 任务负责解析每条数据记录,传递给用户编写的 map(),将 map() 输出数据写入本地磁盘。Reduce 任务负责从 Map Task 上远程读取输入数据,对数据排序,将数据按照分组传递给用户编写的 reduce() 逻辑。 7. Hadoop 学习经验: 在学习 Hadoop 时,需要了解 Hadoop 的生态系统特点、Hadoop 生态系统概况、Hadoop 生态系统版本衍化、下一代 Hadoop 等方面的知识点,并且需要了解 HDFS 和 MapReduce 的架构和原理。 Hadoop 云计算 2.0 笔记第一课 Hadoop 介绍为我们提供了 Hadoop 的生态系统特点、Hadoop 生态系统概况、HDFS 和 MapReduce 的架构和原理等方面的知识点,对于学习 Hadoop 和云计算非常有帮助。
身份认证 购VIP最低享 7 折!
30元优惠券