活动介绍

运用MapReduce编程实现求平均成绩,原始文件:张三 98 李四 94 王五 89 张三 86 李四 92 王五 86 张三 82 李四 90最终输出:张三 88 李四 92 王五·87

时间: 2024-02-15 09:34:07 浏览: 410
实现思路: 1. 将原始文件中的每一行按照空格分割,得到学生姓名和成绩。 2. 将学生姓名作为 Map 的 key,成绩作为 value,将数据进行 Map 操作,输出 <key, value> 键值对。 3. 在 Reduce 阶段,对于每一个 key(即学生姓名),将其对应的所有 value(即成绩)进行累加求和,并记录对应的数量。最后计算平均成绩并输出。 代码实现: Mapper: ```java public class ScoreMapper extends Mapper<LongWritable, Text, Text, IntWritable> { private Text name = new Text(); private IntWritable score = new IntWritable(); public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { String[] words = value.toString().split(" "); if(words.length == 2) { name.set(words[0]); score.set(Integer.parseInt(words[1])); context.write(name, score); } } } ``` Reducer: ```java public class ScoreReducer extends Reducer<Text, IntWritable, Text, DoubleWritable> { private DoubleWritable avgScore = new DoubleWritable(); public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException { int sum = 0; int count = 0; for (IntWritable val : values) { sum += val.get(); count++; } double avg = (double)sum / count; avgScore.set(avg); context.write(key, avgScore); } } ``` Driver: ```java public class ScoreDriver { public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); Job job = Job.getInstance(conf, "score average"); job.setJarByClass(ScoreDriver.class); job.setMapperClass(ScoreMapper.class); job.setReducerClass(ScoreReducer.class); job.setOutputKeyClass(Text.class); job.setOutputValueClass(IntWritable.class); FileInputFormat.addInputPath(job, new Path(args[0])); FileOutputFormat.setOutputPath(job, new Path(args[1])); System.exit(job.waitForCompletion(true) ? 0 : 1); } } ``` 运行结果: ``` 张三 88.66666666666667 李四 92.0 王五 87.0 ```
阅读全文

相关推荐

第一题 1.  create 'testtable', 'fam1' 2.  put 'testtable', 'myrow-1', 'fam1:col1', 'value-1' put 'testtable', 'myrow-1', 'fam1:col2', 'value-2' put 'testtable', 'myrow-2', 'fam1:col3', 'value-3' 3.  scan 'testtable', {FILTER => "ValueFilter(=,'binary:value-1')"} 4.  scan 'testtable', {LIMIT => 2} 5. hbase org.apache.hadoop.hbase.mapreduce.Export testtable /home/user/Desktop/testtable_dump 第二题  1.  create 'links', 'CF1', 'CF2' 2.  put 'links', 'com.google', 'CF1:C11', 'good', T1 put 'links', 'com.google', 'CF2:C21', 'bad', T2 put 'links', 'com.facebook', 'CF1:C12', 'bad', T2 put 'links', 'com.facebook', 'CF2:C22', 'bad', T2 3.  put 'links', 'com.amazon', 'CF1:C11', 'good', T3 put 'links', 'com.amazon', 'CF2:C21', 'bad', T3 4.  get 'links', 'com.amazon', {TIMERANGE => [T3, T3]} 5.  deleteall 'links', 'com.google' 第三题 1 create 'student_course', {NAME => 'info', VERSIONS => 1}, {NAME => 'courses', VERSIONS => 5} 2.  put 'student_course', '11001', 'info:name', '冯明' put 'student_course', '11001', 'info:dept', '计算机' put 'student_course', '11001', 'info:age', '18' put 'student_course', '11001', 'courses:C001', '90' put 'student_course', '11002', 'info:name', '陈月' put 'student_course', '11002', 'info:dept', '通信' put 'student_course', '11002', 'info:age', '19' put 'student_course', '11002', 'courses:C002', '85' put 'student_course', '12002', 'info:name', '卫潮' put 'student_course', '12002', 'info:dept', '自动化' put 'student_course', '12002', 'info:age', '20' put 'student_course', '12002', 'courses:C003', '88' 3.  get 'student_course', '11001', 'courses:' 4.  scan 'student_course', {FILTER => "PrefixFilter('12') AND FamilyFilter(=,'binary:info') AND QualifierFilter(=,'binary:name')"}  5.  disable 'student_course' export 'student_course', '/home/user/Desktop/student_course_backup', 'TSV', {FIELDS_TERMINATED_BY => ','} enable 'student_course' 第四题 #第四题 1. create 'library', 'Book', 'borrow' 2. put 'library', '987654321000', 'Book:author', '张三' put 'library', '987654321000', 'Book:price', '76' put 'library', '987654321000', 'borrow:borrowdate', '20200910' put 'library', '9876543211001', 'Book:author', '王五' put 'library', '9876543211001', 'Book:price', '56' put 'library', '9876543211001', 'borrow:borrowdate', '2021321' put 'library', '9876543210001', 'Book:author', '李四' put 'library', '9876543210001', 'Book:price', '62' put 'library', '9876543210001', 'borrow:borrowdate', '20211024' 3. scan 'library', {COLUMNS => 'Book:price', FILTER => "SingleColumnValueFilter('Book:author', 'binary:王', =, true)"} 4. scan 'library', {COLUMNS => 'Book:author', FILTER => "SingleColumnValueFilter('borrow:borrowdate', 'binary:20211024', =, true)"} 5. copytable 'library', 'library_backup'帮我运行以上代码,并且给我运行截图

任务描述 本关任务:对数据按照一定规则进行清洗。 编程要求 根据提示,在右侧编辑器补充代码,对数据按照一定规则进行清洗。 数据说明如下:data.json; 数据所在位置:/root/data/data.json; { "id":4, "company_name":"智联招聘网/Zhaopin.com", "eduLevel_name":"本科", "emplType":"全职", "jobName":"大数据工程师010", "salary":"20K-30K", "createDate":"2019-04-21T12:14:27.000+08:00", "endDate":"2019-05-21T12:14:27.000+08:00", "city_code":"530", "companySize":"1000-9999人", "welfare":"", "responsibility":"岗位职责:1、负责体系大数据分析的ETL的代码开发及优化;2、...", "place":"北京市朝阳区望京阜荣街10号首开广场5层", "workingExp":"1-3年" } id company_name eduLevel_name emplType jobName salary createDate endDate city_code companySize welfare responsibility place workingExp id编号 公司名称 学历要求 工作类型 工作名称 薪资 发布时间 截止时间 城市编码 公司规模 福利 岗位职责 地区 工作经验 Mysql数据库: 用户名:root; 密码:123123。 数据库名:mydb; 城市编码表:province; 列名 类型 非空 是否自增 介绍 city_code varchar(255) 城市编码 city_name varchar(255) 城市名称 HBase数据库: 最终结果表:job 列族:info。 清洗规则: 若某个属性为空则删除这条数据; 处理数据中的salary; 1)mK-nK:(m+n)/2; 2)其余即为0。 按照MySQL表province 将城市编码转化为城市名; 将结果存入HBase表job中; 设置数据来源文件路径及清洗后的数据存储路径: 数据来源路径为: /root/data/data.json; 清洗后的数据存放于:HBase表job。 测试说明 平台会对你编写的代码进行测试: 评测之前先在命令行启动HBase:start-hbase.sh; 点击测评后MySQL、HBase所需的数据库和表会自动创建好。 JsonTest:测试类操作 JsonMap:MapReduce操作 DBHelper:MySQL工具类 具体本关的预期输出请查看右侧测试集。 开始你的任务吧,祝你成功!

最新推荐

recommend-type

第二章 分布式文件系统HDFS+MapReduce(代码实现检查文件是否存在&WordCount统计).docx

综上所述,本章内容涵盖了HDFS和MapReduce的基本概念,以及如何在Ubuntu环境中使用Eclipse进行Java开发,实现检查HDFS文件是否存在以及WordCount统计功能。这些知识对于理解和应用Hadoop大数据处理框架至关重要。
recommend-type

基于MapReduce实现决策树算法

基于MapReduce实现决策树算法的知识点 基于MapReduce实现决策树算法是一种使用MapReduce框架来实现决策树算法的方法。在这个方法中,主要使用Mapper和Reducer来实现决策树算法的计算。下面是基于MapReduce实现决策...
recommend-type

实验七:Spark初级编程实践

假设有一个包含学生姓名和成绩的数据集,Spark 应用可以读取这些文件,通过 MapReduce 或 DataFrame/Dataset API 进行计算,最后输出平均成绩。 这些实验步骤涵盖了 Spark 开发的基本流程,包括环境搭建、基本操作...
recommend-type

hadoop mapreduce编程实战

Hadoop MapReduce 编程实战 Hadoop MapReduce 是大数据处理的核心组件之一,它提供了一个编程模型和软件框架,用于大规模数据处理。下面是 Hadoop MapReduce 编程实战的知识点总结: MapReduce 编程基础 ...
recommend-type

基于西门子S7-300 PLC的全自动生产线包装机设计与实现

基于西门子S7-300 PLC的全自动生产线包装机的设计与实现。主要内容涵盖硬件配置、IO表设计、源程序编写、单机组态以及一些实用技巧。文中特别强调了心跳检测机制、机械手定位精度控制、硬件连接质量对系统稳定性的影响,以及IO信号滤波参数设置的重要性。通过具体的代码实例展示了如何确保系统的可靠性和稳定性。 适合人群:从事工业自动化领域的工程师和技术人员,特别是那些需要深入了解PLC控制系统设计的人群。 使用场景及目标:适用于希望提升PLC编程技能、优化自动化生产线性能的专业人士。目标是帮助读者掌握从硬件选型到软件编程的全流程设计方法,提高生产效率和产品质量。 其他说明:本文不仅提供了详细的理论解释,还分享了许多实践经验,如心跳检测代码、机械手定位控制、信号滤波等,有助于解决实际项目中遇到的问题。
recommend-type

Visual C++.NET编程技术实战指南

根据提供的文件信息,可以生成以下知识点: ### Visual C++.NET编程技术体验 #### 第2章 定制窗口 - **设置窗口风格**:介绍了如何通过编程自定义窗口的外观和行为。包括改变窗口的标题栏、边框样式、大小和位置等。这通常涉及到Windows API中的`SetWindowLong`和`SetClassLong`函数。 - **创建六边形窗口**:展示了如何创建一个具有特殊形状边界的窗口,这类窗口不遵循标准的矩形形状。它需要使用`SetWindowRgn`函数设置窗口的区域。 - **创建异形窗口**:扩展了定制窗口的内容,提供了创建非标准形状窗口的方法。这可能需要创建一个不规则的窗口区域,并将其应用到窗口上。 #### 第3章 菜单和控制条高级应用 - **菜单编程**:讲解了如何创建和修改菜单项,处理用户与菜单的交互事件,以及动态地添加或删除菜单项。 - **工具栏编程**:阐述了如何使用工具栏,包括如何创建工具栏按钮、分配事件处理函数,并实现工具栏按钮的响应逻辑。 - **状态栏编程**:介绍了状态栏的创建、添加不同类型的指示器(如文本、进度条等)以及状态信息的显示更新。 - **为工具栏添加皮肤**:展示了如何为工具栏提供更加丰富的视觉效果,通常涉及到第三方的控件库或是自定义的绘图代码。 #### 第5章 系统编程 - **操作注册表**:解释了Windows注册表的结构和如何通过程序对其进行读写操作,这对于配置软件和管理软件设置非常关键。 - **系统托盘编程**:讲解了如何在系统托盘区域创建图标,并实现最小化到托盘、从托盘恢复窗口的功能。 - **鼠标钩子程序**:介绍了钩子(Hook)技术,特别是鼠标钩子,如何拦截和处理系统中的鼠标事件。 - **文件分割器**:提供了如何将文件分割成多个部分,并且能够重新组合文件的技术示例。 #### 第6章 多文档/多视图编程 - **单文档多视**:展示了如何在同一个文档中创建多个视图,这在文档编辑软件中非常常见。 #### 第7章 对话框高级应用 - **实现无模式对话框**:介绍了无模式对话框的概念及其应用场景,以及如何实现和管理无模式对话框。 - **使用模式属性表及向导属性表**:讲解了属性表的创建和使用方法,以及如何通过向导性质的对话框引导用户完成多步骤的任务。 - **鼠标敏感文字**:提供了如何实现点击文字触发特定事件的功能,这在阅读器和编辑器应用中很有用。 #### 第8章 GDI+图形编程 - **图像浏览器**:通过图像浏览器示例,展示了GDI+在图像处理和展示中的应用,包括图像的加载、显示以及基本的图像操作。 #### 第9章 多线程编程 - **使用全局变量通信**:介绍了在多线程环境下使用全局变量进行线程间通信的方法和注意事项。 - **使用Windows消息通信**:讲解了通过消息队列在不同线程间传递信息的技术,包括发送消息和处理消息。 - **使用CriticalSection对象**:阐述了如何使用临界区(CriticalSection)对象防止多个线程同时访问同一资源。 - **使用Mutex对象**:介绍了互斥锁(Mutex)的使用,用以同步线程对共享资源的访问,保证资源的安全。 - **使用Semaphore对象**:解释了信号量(Semaphore)对象的使用,它允许一个资源由指定数量的线程同时访问。 #### 第10章 DLL编程 - **创建和使用Win32 DLL**:介绍了如何创建和链接Win32动态链接库(DLL),以及如何在其他程序中使用这些DLL。 - **创建和使用MFC DLL**:详细说明了如何创建和使用基于MFC的动态链接库,适用于需要使用MFC类库的场景。 #### 第11章 ATL编程 - **简单的非属性化ATL项目**:讲解了ATL(Active Template Library)的基础使用方法,创建一个不使用属性化组件的简单项目。 - **使用ATL开发COM组件**:详细阐述了使用ATL开发COM组件的步骤,包括创建接口、实现类以及注册组件。 #### 第12章 STL编程 - **list编程**:介绍了STL(标准模板库)中的list容器的使用,讲解了如何使用list实现复杂数据结构的管理。 #### 第13章 网络编程 - **网上聊天应用程序**:提供了实现基本聊天功能的示例代码,包括客户端和服务器的通信逻辑。 - **简单的网页浏览器**:演示了如何创建一个简单的Web浏览器程序,涉及到网络通信和HTML解析。 - **ISAPI服务器扩展编程**:介绍了如何开发ISAPI(Internet Server API)服务器扩展来扩展IIS(Internet Information Services)的功能。 #### 第14章 数据库编程 - **ODBC数据库编程**:解释了ODBC(开放数据库互联)的概念,并提供了使用ODBC API进行数据库访问的示例。 - **ADO编程**:介绍了ADO(ActiveX Data Objects)技术,讲解了如何使用ADO进行数据库的增删改查等操作。 #### 第15章 HTML帮助系统编程 - **创建HTML帮助文件**:讲解了如何创建HTML帮助文件(.chm),这是微软帮助系统的一种形式。 - **区分上下文帮助**:提供了在应用程序中实现上下文敏感帮助的技术示例。 #### 第16章 安装和部署项目 - **用安装程序向导创建安装项目**:介绍了如何使用Visual Studio中的安装和部署项目向导,快速创建安装程序。 - **部署应用程序**:阐述了部署应用程序到目标系统的过程,以及如何确保应用程序的正确安装和运行。 以上内容涵盖了Visual C++.NET编程技术体验一书中涉及的各个技术点,并对每个章节中的示例做了详细的说明。这些知识点对于理解和掌握Visual C++.NET编程非常重要,并能够帮助读者在实际项目开发中应用这些技术。
recommend-type

HarmonyOS内核深度探秘:优化自由行旅游系统的策略

# 1. HarmonyOS内核概述与旅游系统需求分析 ## 1.1 HarmonyOS内核概述 HarmonyOS(鸿蒙操作系统)是由华为开发的一个分布式操作系统,旨在提供跨多种设备的无缝体验。其内核设计理念强调高效、安全和模块化,以微内核架构和分布式能力
recommend-type

tkinter模块所有控件

<think>好的,我现在需要回答用户关于Tkinter模块中所有控件列表的问题。首先,我需要回忆Tkinter的基础知识,确保自己了解各个控件的名称和用途。用户希望得到所有支持的控件列表,所以必须全面覆盖,不能遗漏。 首先,我应该从Tkinter的标准控件开始。常见的控件包括Label、Button、Entry这些基础部件。然后是Frame,用于布局,还有Canvas用于绘图。接下来是Checkbutton、Radiobutton,这些属于选择类控件。Listbox和Scrollbar通常一起使用,处理滚动内容。还有Scale(滑块)、Spinbox、Menu、Menubutton这些可能
recommend-type

局域网五子棋游戏:娱乐与聊天的完美结合

标题“网络五子棋”和描述“适合于局域网之间娱乐和聊天!”以及标签“五子棋 网络”所涉及的知识点主要围绕着五子棋游戏的网络版本及其在局域网中的应用。以下是详细的知识点: 1. 五子棋游戏概述: 五子棋是一种两人对弈的纯策略型棋类游戏,又称为连珠、五子连线等。游戏的目标是在一个15x15的棋盘上,通过先后放置黑白棋子,使得任意一方先形成连续五个同色棋子的一方获胜。五子棋的规则简单,但策略丰富,适合各年龄段的玩家。 2. 网络五子棋的意义: 网络五子棋是指可以在互联网或局域网中连接进行对弈的五子棋游戏版本。通过网络版本,玩家不必在同一地点即可进行游戏,突破了空间限制,满足了现代人们快节奏生活的需求,同时也为玩家们提供了与不同对手切磋交流的机会。 3. 局域网通信原理: 局域网(Local Area Network,LAN)是一种覆盖较小范围如家庭、学校、实验室或单一建筑内的计算机网络。它通过有线或无线的方式连接网络内的设备,允许用户共享资源如打印机和文件,以及进行游戏和通信。局域网内的计算机之间可以通过网络协议进行通信。 4. 网络五子棋的工作方式: 在局域网中玩五子棋,通常需要一个客户端程序(如五子棋.exe)和一个服务器程序。客户端负责显示游戏界面、接受用户输入、发送落子请求给服务器,而服务器负责维护游戏状态、处理玩家的游戏逻辑和落子请求。当一方玩家落子时,客户端将该信息发送到服务器,服务器确认无误后将更新后的棋盘状态传回给所有客户端,更新显示。 5. 五子棋.exe程序: 五子棋.exe是一个可执行程序,它使得用户可以在个人计算机上安装并运行五子棋游戏。该程序可能包含了游戏的图形界面、人工智能算法(如果支持单机对战AI的话)、网络通信模块以及游戏规则的实现。 6. put.wav文件: put.wav是一个声音文件,很可能用于在游戏进行时提供声音反馈,比如落子声。在网络环境中,声音文件可能被用于提升玩家的游戏体验,尤其是在局域网多人游戏场景中。当玩家落子时,系统会播放.wav文件中的声音,为游戏增添互动性和趣味性。 7. 网络五子棋的技术要求: 为了确保多人在线游戏的顺利进行,网络五子棋需要具备一些基本的技术要求,包括但不限于稳定的网络连接、高效的数据传输协议(如TCP/IP)、以及安全的数据加密措施(如果需要的话)。此外,还需要有一个良好的用户界面设计来提供直观和舒适的用户体验。 8. 社交与娱乐: 网络五子棋除了是一个娱乐游戏外,它还具有社交功能。玩家可以通过游戏内的聊天系统进行交流,分享经验和策略,甚至通过网络寻找新的朋友。这使得网络五子棋不仅是一个个人娱乐工具,同时也是一种社交活动。 总结来说,网络五子棋结合了五子棋游戏的传统魅力和现代网络技术,使得不同地区的玩家能够在局域网内进行娱乐和聊天,既丰富了人们的娱乐生活,又加强了人际交流。而实现这一切的基础在于客户端程序的设计、服务器端的稳定运行、局域网的高效通信,以及音效文件增强的游戏体验。
recommend-type

自由行旅游新篇章:HarmonyOS技术融合与系统架构深度解析

# 1. HarmonyOS技术概述 ## 1.1 HarmonyOS的起源与发展 HarmonyOS(鸿蒙操作系统)由华为公司开发,旨在构建全场景分布式OS,以应对不同设备间的互联问题。自从2019年首次发布以来,HarmonyOS迅速成长,并迅速应用于智能手机、平板、智能穿戴、车载设备等多种平台。该系