RDD编程初级实践

最新推荐文章于 2024-03-17 21:04:17 发布

kingbob111

最新推荐文章于 2024-03-17 21:04:17 发布

阅读量1.5k

点赞数 1

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_50763034/article/details/117897617

本文档介绍了如何使用pyspark进行交互式编程，包括计算学生总数、课程数量、平均分等，同时提供了独立应用程序实现数据去重和平均成绩计算，涉及文件合并、去重、平均值计算等操作。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

需求描述

本次实验需要完成：1.pyspark交互式编程；2.编写独立应用程序实现数据去重；3.编写独立应用程序实现求平均值问题。

其中pyspark交互式编程需要根据给定的实验数据data.txt，在pyspark中通过编程来计算以下内容，分别为：1.该系总共有多少学生；2.该系共开设了多少门课程；3.Tom同学的总成绩平均分是多少；4.求每名同学的选修的课程门数；5.该系DataBase课程共有多少人选修；6.各门课程的平均分是多少；7.使用累加器计算共有多少人选了DataBase这门课。

编写独立应用程序实现数据去重需要对于两个输入文件A.txt和B.txt，编写Spark独立应用程序，对两个文件进行合并，并剔除其中重复的内容，得到一个新文件C。

编写独立应用程序实现求平均值问题需要对给出门课的成绩（Algorithm.txt、Database.txt、Python.txt），每个输入文件表示班级学生某个学科的成绩，每行内容由两个字段组成，第一个是学生名字，第二个是学生的成绩；编写Spark独立应用程序求出所有学生的平均成绩，并输出到一个新文件中。

环境介绍

本次实验在笔记本上进行，笔记本配置为：

型号：联想ThinkBook 15 2021款酷睿版

CPU：11th Gen Intel(R) Core(TM) i5-1135G7 @ 2.40GHz

内存：16GB

显卡：Intel(R) Iris(R) Xe Graphics

硬盘：西数SN530 512GB M.2 NVMe 固态硬盘

Windows版本：Windows 10 家庭中文版 20H2

虚拟机环境：Oracle VM VirtualBox

操作系统：Ubuntu16.04

Spark版本：2.4.0

Python版本：3.4.3

Hadoop版本：2.7.1

HBase版本：1.1.5

数据来源描述

1．pyspark交互式编程

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。