编写MapReduce程序，实现统计字符数功能，待统计数字位于HDFS分布式文件系统上，路径为/wordcount/input下，然后生成面包，提交给YATN集群运行。

### 编写MapReduce程序统计HDFS上的字符数量为了实现这一目标，可以创建一个简单的Java MapReduce应用程序来计算给定输入文件中的总字符数。此过程涉及定义Mapper类和Reducer类，在这里不需要复杂的逻辑处理，因为只需关注字符的数量。 #### Mapper设计 Mapper的任务是从每条记录读取数据并输出键值对。对于字符计数问题来说，可以直接忽略Key部分而专注于Value即文本行本身，并假设每个映射阶段产生的中间结果为(任意常量, 字符串长度)，这里的字符串长度代表单个输入行内的字符数目。 ```java import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; public class CharCountMapper extends Mapper<LongWritable, Text, IntWritable, IntWritable> { private final static IntWritable one = new IntWritable(1); @Override protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { String line = value.toString(); int charNum = line.length(); // 计算当前行的字符总数 context.write(one, new IntWritable(charNum)); } } ``` #### Reducer设计 Reducer负责接收来自多个Mappers的数据并对它们进行汇总操作。在这个例子中，Reducer会接收到形如`(1, N)`这样的键值对集合，其中`N`表示某一行里的字符数量；因此，只需要累加所有的`N`值得到最终的结果——整个文档集里所有字符的总量。 ```java import java.io.IOException; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.mapreduce.Reducer; public class CharCountReducer extends Reducer<IntWritable,IntWritable,IntWritable,IntWritable> { public void reduce(IntWritable key, Iterable<IntWritable> values, Context context ) throws IOException, InterruptedException { int sum = 0; for (IntWritable val : values){ sum += val.get(); } context.write(key, new IntWritable(sum)); } } ``` #### 配置Job设置以便于提交至YARN集群执行为了让上述编写的MapReduce应用能够在真实的生产环境中工作，还需要适当配置作业参数以适应实际部署情况下的需求。特别是当计划让该任务在基于Apache YARN框架管理资源调度器之上运行时，则应确保设置了如下几个重要属性： - `mapreduce.framework.name=yarn`: 指明采用YARN作为MRv2版本下默认的工作模式。 - `yarn.resourcemanager.hostname=hadoop000`: 明确指出ResourceManager服务端口所在主机名或IP地址。 - `mapreduce.app-submission.cross-platform=true`: 启用跨平台提交功能允许远程客户端向不同操作系统环境发起请求。最后一步就是构建完整的Driver代码用于启动这个特定用途的应用实例并向集群发送指令完成相应运算流程[^2]。 ```java import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; public class CharCount { public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); Job job = Job.getInstance(conf, "char count"); job.setJarByClass(CharCount.class); job.setOutputKeyClass(IntWritable.class); job.setOutputValueClass(IntWritable.class); job.setMapperClass(CharCountMapper.class); job.setCombinerClass(CharCountReducer.class); // 可选：如果希望减少网络传输开销可启用组合器 job.setReducerClass(CharCountReducer.class); FileInputFormat.addInputPath(job, new Path("/wordcount/input")); FileOutputFormat.setOutputPath(job, new Path("/output")); conf.set("mapreduce.framework.name", "yarn"); conf.set("yarn.resourcemanager.hostname", "hadoop000"); conf.set("mapreduce.app-submission.cross-platform", "true"); System.exit(job.waitForCompletion(true) ? 0 : 1); } } ```

阅读全文

编写MapReduce程序，实现统计字符数功能，待统计数字位于HDFS分布式文件系统上，路径为/wordcount/input下，然后生成面包，提交给YATN集群运行。

相关推荐

第二章 分布式文件系统HDFS+MapReduce（代码实现检查文件是否存在&WordCount统计）.docx

大数据课程-Hadoop集群程序设计与开发-3.HDFS分布式文件系统_lk_edit.pptx

HDFS分布式文件系统具备的优点共2页.pdf.zip

使用Java编写MapReduce WordCount示例程序

MapReduce 如何实现分布式数据处理

MapReduce WordCount程序简介与基础概念解析

WordCount案例精讲：MapReduce排序与输出机制详解

WordCount案例深度剖析：MapReduce数据分组处理的艺术

掌握Reduce端数据合并：MapReduce中的WordCount技巧解析

【MapReduce终极指南】：从0到1精通WordCount

【MapReduce与HDFS交互】：揭秘数据处理的10个高级策略

MapReduce高效词频统计指南：掌握性能优化的艺术

Spark词频统计分布式挑战：如何应对大数据的分布式处理

【MapReduce实例演练】：从零开始构建你的第一个MapReduce程序，5小时打造你的大数据应用

解决数据倾斜：MapReduce词频统计案例全解析

【数组与分布式系统】：大数据环境下的数组处理技巧大全

HDFS 存储系统中的数据读写流程详解

MapReduce词频统计进阶课：大规模数据集处理秘诀

从零开始掌握MapReduce：学生成绩统计编程模型详解

大家在看

HslCommunication-labview

“Advanced Systems Format” or “ASF.文件格式规范

AUTOSAR_MCAL_WDG.zip

MATLAB机械臂简单控制仿真（Simulink篇-总）.zip

栈指纹OS识别技术-网络扫描器原理

最新推荐

Linux入门上机实操.ppt

javaEE学生专业课程设计成绩评估系统.doc

Javaweb实训总结报告.docx

基于单片机的CO浓度检测及报警系统设计与制作.doc

excel典型试题操作步骤.doc

吉林大学Windows程序设计课件自学指南

STM32F10x ADC_DAC转换实战：精确数据采集与输出处理

麒麟系统编译动态库

Struts框架中ActionForm与实体对象的结合使用

STM32F10x定时器应用精讲：掌握基本使用与高级特性

第二章分布式文件系统HDFS+MapReduce（代码实现检查文件是否存在&WordCount统计）.docx