Spark SQL 给定JSON文件`student.json`内容如下：（将下列数据复制到student.json中，并上传到liunx操作系统/home/hadoop目录下） ` ``json {"id":1, "name":"Alice", "score":85} {"id":2, "name":"Bob", "score":92} {"id":3, "name":"Charlie", "score":78} {"id":4, "name":"alex", "score":59} {"id":5, "name":"tom", "score":88} {"id":6, "name":"jack", "score":91} ``` 要求： 1. 读取JSON文件创建DataFrame，并打印Schema。 2. 使用DataFrame API查询分数大于80的学生姓名和分数。 3. 注册临时表，通过Spark SQL实现成绩排名前3的学生记录。 4. 将要求3结果保存为Parquet格式文件

时间: 2025-05-29 16:58:03 浏览: 28

### 使用 Spark SQL 处理 JSON 文件的任务以下是基于 Spark SQL 的解决方案，涵盖了从读取 `student.json` 到保存结果为 Parquet 格式的全过程。 #### 1. 创建 DataFrame 并打印 Schema 要读取 JSON 文件并将其转换为 DataFrame，可以使用 `spark.read.json()` 方法。之后调用 `.printSchema()` 打印数据结构。 ```python from pyspark.sql import SparkSession # 初始化 SparkSession spark = SparkSession.builder.appName("ProcessStudentData").getOrCreate() # 读取 JSON 文件并创建 DataFrame df = spark.read.json("student.json") # 打印 Schema df.printSchema() ``` 此部分操作会加载 JSON 数据到内存中，并展示其字段定义[^1]。 --- #### 2. 查询分数大于 80 的学生姓名和分数可以通过过滤条件筛选出符合条件的数据，并仅保留所需的列。 ```python # 过滤分数大于 80 的记录，并选择 name 和 score 字段 filtered_df = df.filter(df["score"] > 80).select("name", "score") # 显示结果 filtered_df.show() ``` 这里利用了 Spark SQL 提供的表达式语法来执行过滤和投影操作[^2]。 --- #### 3. 注册临时表并通过 SQL 查询成绩排名前 3 的学生记录为了通过 SQL 实现复杂查询，需先注册 DataFrame 为临时视图，再编写相应的 SQL 表达式。 ```python # 注册临时表 df.createOrReplaceTempView("students") # 编写 SQL 查询以获取成绩排名前三的学生 top_3_query = """ SELECT * FROM students ORDER BY score DESC LIMIT 3 """ # 执行 SQL 查询并将结果存储到新的 DataFrame 中 top_3_students = spark.sql(top_3_query) # 展示结果 top_3_students.show() ``` 这段代码展示了如何结合 SQL 语句实现排序与限制功能[^3]。 --- #### 4. 将结果保存为 Parquet 格式文件最后一步是将处理后的数据导出至指定路径下的 Parquet 文件。 ```python # 将 top_3_students 结果保存为 Parquet 文件 output_path = "/path/to/output/parquet" top_3_students.write.parquet(output_path, mode="overwrite") ``` 此处指定了输出模式为覆盖现有文件的方式[^4]。 --- ### 总结以上步骤依次完成了 DataFrame 构建、高级查询以及最终的结果持久化工作流设计。

阅读全文

相关推荐

ssh方式是将工程文件传到开发板上的liunx系统上，在ubuntu主机终端 中执行以下操作：

json(C语言).zip

《liunx操作系统》课件linux上机实验.docx

sql,java.jsp.liunx

liunx操作系统.html

liunx 操作系统

LIUNX配置文件详解.ZAR

AIX.LIUNX.存储.网络简单面试题.rar

liunx.xmind

LIUNX.docx

Liunx文件系统基本目录介绍大全.doc

Liunx操作系统._Shell编程、Liunx源码解析、常用命令、Linux内核_Linux_Notes.zip

liunx文件系统和命令

中国移动liunx操作系统安全配置规.doc

liunx下怎么创建一个json文件

liunx.新建一个/tmp/test.txt文件，要求test文件拥有人为root,拥有组为it studentname1能拥有该文件的读权限 studentname2拥有该文件的读写权限。

liunx上传文件命令

基于单片机的水位自动检测与控制系统开题报告.doc

机电控制与可编程序控制器课程设计.doc

基于单片机的红外防盗系统.doc

大家在看

常用的网络拓朴图素材.zip

最新VISIO各种图形图标大集合.

2020_0610_应对新兴毫米波应用的测试挑战.pdf

国家/地区：国家/地区信息应用

Xilinx 7系列FPGA手册[打包下载]

最新推荐

mobaxterm无法连接到liunx的解决办法.doc

torch-1.7.1+cu110-cp37-cp37m-linux_x86_64.whl离线安装包linux系统x86_64

linux系统中c++写日志文件功能分享

基于单片机的水位自动检测与控制系统开题报告.doc

机电控制与可编程序控制器课程设计.doc

cc65 Windows完整版发布：6502 C开发工具

【CLIP模型实战】：从数据预处理到代码实现的图文相似度计算完全指南

车载以太网doip协议格式

JavaScript中文帮助手册：初学者实用指南

深入理解MySQL存储引擎：InnoDB与MyISAM的终极对决

ssh方式是将工程文件传到开发板上的liunx系统上，在ubuntu主机终端中执行以下操作：