Hadoop入门：初识Hadoop与MapReduce

PDF文件

下载需积分: 10 | 1.13MB | 更新于2024-07-28 | 148 浏览量 | 举报收藏

立即下载

"这是一份关于hadoop的学习笔记，旨在帮助读者理解Hadoop的基础概念和架构原理，适合对云技术感兴趣的测试人员参考。笔记首先介绍了Hadoop作为开源分布式并行编程框架的角色，与Google的相关技术有密切关系。接着，笔记详细阐述了Hadoop的架构，包括HDFS（Hadoop Distributed Filesystem）和MapReduce编程模型，这两个组件构成了Hadoop的核心功能。HDFS采用管理者-工作者模式，由NameNode和DataNode组成，确保数据的分布式存储和容错能力。" 在深入学习Hadoop时，首先要理解的是Hadoop的诞生背景和它所解决的问题。在大数据时代，处理大规模数据集成为一项挑战，而传统的单机系统无法有效应对。Hadoop通过引入分布式计算模型，使得数据可以并行处理，显著提高了处理效率。 Hadoop的核心组件之一是HDFS，它是基于分布式文件系统的理念设计的。HDFS将大文件分割成多个块，并将这些块分散存储在集群中的多个DataNode上，每个块通常有多个副本，以提高数据的可用性和容错性。NameNode作为中心管理节点，负责维护文件系统的元数据，包括文件到数据块的映射以及DataNode的状态信息。另一个关键组件是MapReduce，它提供了一种编程模型，使得开发者可以方便地编写处理大量数据的并行程序。Map阶段将任务分解为独立的部分，然后在各个DataNode上并行执行；Reduce阶段则负责整合Map阶段的结果，进行聚合或总结操作，确保最终结果的正确性。这种分而治之的方法极大地提升了大规模数据处理的能力。 Hadoop的出现，不仅推动了大数据处理技术的发展，也为云计算平台如阿里云提供了坚实的技术基础。通过学习Hadoop，不仅可以理解分布式计算的基本原理，还能为参与和理解涉及Hadoop的项目测试和沟通提供支持。这份学习笔记涵盖了Hadoop的基础知识，包括它的起源、核心组件HDFS和MapReduce的工作机制，以及它们在处理大规模数据集时的重要性。对于想要涉足云计算和大数据领域的学习者，这是一份非常有价值的参考资料。通过深入学习和实践，可以更好地掌握Hadoop，并应用到实际的项目中去。

result.set(sum);

context.write(key, result);

}

同样，Reducer接口的四个形式参数类型指定了reduce函数的输入和输出类型。在上面的例子中，输入键是单

词，输入值是单词出现的次数，将单词出现的次数进行叠加，输出单词和单词总数。

定义job

•

public class WordCount {

public static void main(String[] args) throws Exception {

Configuration conf = new Configuration();

String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();

if (otherArgs.length != 2) {

System.err.println("Usage: wordcount ");

System.exit(2);

}

/**创建一个job，起个名字以便跟踪查看任务执行情况**/

Job job = new Job(conf, "word count");

/**当在hadoop集群上运行作业时，需要把代码打包成一个jar文件（hadoop会在集群分发这

个文件），通过job的setJarByClass设置一个类，hadoop根据这个类找到所在的jar文件**/

job.setJarByClass(WordCount.class);

/**设置要使用的map、combiner、reduce类型**/

job.setMapperClass(WordCountMapper.class);

job.setCombinerClass(WordCountReducer.class);

job.setReducerClass(WordCountReducer.class);

/**设置map和reduce函数的输入类型，这里没有代码是因为我们使用默认的 TextInputFormat，

针对文本文件，按行将文本文件切割成 InputSplits, 并用 LineRecordReader 将 InputSplit 解析

成 <key,value&gt: 对，key 是行在文件中的位置，value 是文件中的一行**/

/**设置map和reduce函数的输出键和输出值类型**/

job.setOutputKeyClass(Text.class);

job.setOutputValueClass(IntWritable.class);

/**设置输入和输出路径**/

FileInputFormat.addInputPath(job, new Path(otherArgs[0]));

FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));

/**提交作业并等待它完成**/

System.exit(job.waitForCompletion(true) ? 0 : 1);

}

基本上完成一个MapReduce程序就这么简单，复杂的在于job的配置有着复杂的属性参数，如文件分割策略、

排序策略、map输出内存缓冲区的大小、工作线程数量等，深入理解掌握这些参数才能使自己的MapReduce程

序在集群环境中运行的最优。

小结

本文通过一个实例说明了MapReduce的基本编程模型，希望通过此能加深对MapReduce的理解，在后面的文章

中将介绍如何测试MapReduce及如何把作业运行起来。

源文档 <http://qa.taobao.com/?p=10523>

分区 hadoop 的第 5 页

剩余23页未读，继续阅读

yusec

粉丝: 21

Hadoop入门：初识Hadoop与MapReduce

Hadoop学习笔记

最新Hadoop学习笔记

Hadoop 学习笔记.md

HADOOP学习笔记

学位论文-—木马程序设计及植入技术设计.doc

【西门子PLC例程】-一条生产线的程序400、300、数控系统都有用上3.zip

【欧母龙PLC例程】-FB Scale with parameters.zip

【欧母龙PLC例程】-V700-V720 RFID Protocol Macro.zip

从组织理论与设计的角度浅析中外企业的成功之道海尔与ibm对比分析-学位论文.doc

计算机视觉_OpenCV_Python27_YAML_基于停车位检测算法的智能停车场管理系统_用于实时监控停车场车位占用情况并优化停车资源分配_通过图像处理技术识别空余车位_支持自定义停车区域.zip

最新资源