将下列json数据复制到你的ubuntu系统/usr/local/spark下，并保存命名为employee.json { "id":1 , "name":" Ella" , "age":36 } { "id":2, "name":"Bob","age":29 } { "id":3 , "name":"Jack","age":29 } { "id":4 , "name":"Jim","age":28 } { "id":4 , "name":"Jim","age":28 } { "id":5 , "name":"Damon" } { "id":5 , "name":"Damon" } 首先读取employee.json创建DataFrame，并满足以下要求进行数据分析。（要求：pycharm中进行编写程序） (1)查询所有数据，并去除重复的数据 (2)筛选age>20的记录 (3)将数据按age分组,统计每个年龄员工的数量 (4)查询所有记录的name列，并为其取别名为username (5)查询年龄age的平均值，最大值

时间: 2025-05-21 08:38:54 浏览: 19

### 创建 `employee.json` 文件在 Ubuntu 的 `/usr/local/spark` 目录下创建 `employee.json` 文件，可以使用以下命令： ```bash sudo nano /usr/local/spark/employee.json ``` 将如下 JSON 数据写入文件中作为示例数据： ```json [ {"id": 1, "name": "Ella", "age": 36}, {"id": 2, "name": "John", "age": 28}, {"id": 3, "name": "Anna", "age": 25}, {"id": 4, "name": "Mike", "age": 36}, {"id": 5, "name": "Lily", "age": 22}, {"id": 6, "name": "Ella", "age": 36} ] ``` 保存并退出。 --- ### PyCharm 中编写 Spark 程序以下是完整的 Python 脚本代码，在 PyCharm 中运行该脚本来完成所需的任务： #### 初始化 SparkSession 和加载 JSON 文件 ```python from pyspark.sql import SparkSession # 初始化 SparkSession spark = SparkSession.builder \ .appName("Employee Analysis") \ .getOrCreate() # 加载 employee.json 文件为 DataFrame df_employee = spark.read.json("/usr/local/spark/employee.json") # 打印原始 DataFrame 结构 df_employee.printSchema() df_employee.show(truncate=False) ``` #### 去重去除重复数据可以通过 `dropDuplicates()` 方法实现： ```python # 去除重复记录 df_no_duplicates = df_employee.dropDuplicates() # 默认基于所有列去重 print("After removing duplicates:") df_no_duplicates.show(truncate=False) ``` #### 筛选 age 大于 20 的记录筛选条件可通过 `filter()` 或 `where()` 方法指定： ```python # 筛选出 age > 20 的记录 df_filtered = df_no_duplicates.filter(df_no_duplicates["age"] > 20) print("Filtered records where age > 20:") df_filtered.show(truncate=False) ``` #### 按 age 分组统计每个年龄的员工数量分组统计通过 `groupBy()` 和聚合函数 `count()` 实现： ```python # 统计每个年龄段的人数 df_grouped_by_age = df_filtered.groupBy("age").count() print("Group by age and count employees:") df_grouped_by_age.show(truncate=False) ``` #### 设置 name 列别名为 username 设置别名通过 `alias()` 方法或 SQL 表达式的 `AS` 关键字实现： ```python # 查询 name 列并设置别名为 username df_username_alias = df_filtered.select(df_filtered["name"].alias("username")) print("Name column with alias 'username':") df_username_alias.show(truncate=False) ``` #### 计算 age 列的平均值和最大值计算平均值和最大值分别使用 `avg()` 和 `max()` 聚合函数： ```python from pyspark.sql.functions import avg, max # 计算 age 列的平均值和最大值 df_stats = df_filtered.agg(avg("age").alias("average_age"), max("age").alias("maximum_age")) print("Statistics of the 'age' column:") df_stats.show(truncate=False) ``` --- ### 完整流程总结以上代码实现了从读取 JSON 文件到执行各种分析操作的过程。每一步均提供了清晰的结果展示，便于验证中间状态是否正确[^1]。 --- ###

阅读全文

相关推荐

Ubuntu环境QT问题 /usr/bin/ld: 找不到 -lGL(已解决)

VSCode下.json文件的编写之(1) linux/g++ (2).json中参数与预定义变量的意义解释

将下列 json 数据复制到你的 centos系统/usr/local/spark 下，并保存命名为 employee.json。

编译QT出现/usr/lib/libstdc++.so.6:version 'GLIBCXX_3.4.9' not found /usr/lib/libstdc++.so.6:version 'GLIBCXX_3.4.11'not found的解决

Linux编译静态链接出现：/usr/bin/ld: cannot find -lc，解决方式

Apache Spark：Spark项目实战：实时推荐系统.docx

Ubuntu usr/java/jdk1.8.0_181环境配置

linux 程序安装目录/opt目录和/usr/local目录的区别

/usr/lib/x86-64-linux-gnu/libsmbldap.so.0:invalid ELF header

darknet /usr/bin/ld: cannot find -lcuda

libm.so.6 放到/usr/lib64/

Spark本地版安装教程（Ubuntu）.docx

/usr/bin/ld 找不到 -lcuda

Linux bash：./xxx：无法执行二进制文件报错

cc1-放入/usr/libexec/gcc/x86_64-redhat-linux/4.4.4/内

greenplum-json-formatter:用于读取和写入JSON数据的Greenplum扩展

Perfect-Ubuntu：将Swift和Perfect依赖项安装到Ubuntu 16.04系统中

大家在看

Verilog LRM

全能测井解释软件Forward_2.7_最全教程

TDC-GP22资料.zip

组装全局刚度矩阵：在 FEM 中组装是一项乏味的任务，这个 matlab 程序可以完成这项任务。-matlab开发

KISSsoft全实例中文教程

最新推荐

解决-BASH: /HOME/JAVA/JDK1.8.0_221/BIN/JAVA: 权限不够问题

linux输入yum后提示： -bash: /usr/bin/yum: No such file or directory的解决方法

Can't connect to local MySQL through socket '/tmp/mysql.sock'解决方法

python json.loads兼容单引号数据的方法

Linux bash：./xxx：无法执行二进制文件报错

Evc Sql CE 程序开发实践与样例代码分享

【浪潮FS6700交换机配置实战】：生产环境快速部署策略与技巧

YOLO11训练批次参考

数据库考试复习必备五套习题精讲

【浪潮FS6700交换机故障诊断与排除】：掌握这些方法，让你的网络稳定如初