第1关：Python数据处理—使用 PySpark 处理数据框 600 学习内容参考答案记录评论任务描述相关知识数据框简介 PySpark 数据框处理创建数据框筛选数据合并数据框 join 操作重命名数据框编程要求测试说明任务描述本关任务：有两个班的成绩单分别保存在student1.csv和student2.csv中，请根据所给提示完成相应的操作。相关知识为了完成本关任务，你需要掌握如何用 Spark 处理数据框。数据框简介数据框是一个分布式二维数据集，在概念和关系数据库表或 R 语言中的 Data Frame 类似，但是数据框提供很多优化措施。可以由大量的方式创建，例如结构化的数据文件、Hive 表、外部数据库和现有的本地 R 数据框等。数据框通常除了数据本身还包括定义数据的元数据，比如列和行的名字。数据框可以用来处理大批量的结构化或半结构化的数据。数据框的应用编程接口支持对数据的各种处理，包括通过名字或位置查询行、列和单元格、过滤行等等。数据框支持各种各样的数据格式和数据源，它为不同的程序语言提供 API 支持，比如 Python 、 R 、Scala 等等。我们可以说数据框不是别的，就只是一种类似于 SQL 表或电子表格的二维数据结构。数据框 PySpark 数据框处理创建数据框创建数据框时，可以有多种不同方式进行创建，以下介绍两种不同数据源的读取创建说明： 1. 从 csv 文件创建新的数据框从一个 csv 文件中加载数据可以用 spark.read.csv 方法来将数据加载到一个 DataFrame 对象中。 df = spark.read.csv(path，header，inferSchema) #path为路径 #header(默认是false) 表示是否将csv文件中的第一行作为schema(读写参数) #inferSchema 表示是否支持从数据中推导出schema(只读参数) 例如，有一个名为test.csv的数据集包含以下内容： column1,column2 1,2 2,4 3,6 4,8 5,10 我们将它读入并创建成数据框可用以下代码： df1 = spark.read.csv('project/src/step1/test1.csv', header=True, inferSchema=True) df1.show() 运行结果如下： +-------+-------+ |column1|column2| +-------+-------+ | 1| 2| | 2| 4| | 3| 6| | 4| 8| | 5| 10| +-------+-------+ 2. 从 pandas_df 创建数据框例如创建一个 4*4 的数值为随机数的数据框可以用如下语句： df = pd.DataFrame(np.random.random((4, 4))) df = spark.createDataFrame(df) 输出如下： +-------------------+------------------+--------------------+--------------------+ | 0| 1| 2| 3| +-------------------+------------------+--------------------+--------------------+ | 0.2668751247790484|0.7842122714071319| 0.8940958868923979| 0.395379865632305| | 0.9935407483893016|0.7785592206069294| 0.9466907846722169|0.050751792943087404| |0.39561337674840424|0.5613734971939374| 0.14812750520869256| 0.554849314768592| |0.14944494714704348|0.5782490430063237|0.026532625021582934| 0.9034052593020386| +-------------------+------------------+--------------------+--------------------+ 接下来介

时间: 2025-05-23 10:04:02 浏览: 38

### PySpark 数据框处理教程以下是关于如何使用 PySpark 处理数据框的详细说明，涵盖了从 CSV 创建数据框、筛选数据、执行 join 操作以及重命名列等功能。 #### 1. 创建 SparkSession 在 PySpark 中，`SparkSession` 是入口点。它用于初始化 Spark 应用程序并与集群通信。 ```python from pyspark.sql import SparkSession # 初始化 SparkSession spark = SparkSession.builder \ .appName("PySpark DataFrame Tutorial") \ .getOrCreate() ``` [^1] --- #### 2. 从 CSV 文件创建 DataFrames 可以使用 `read.csv()` 方法加载 CSV 文件到 DataFrame 中。设置参数 `header=True` 表示第一行为列名，`inferSchema=True` 自动推断数据类型。 ```python data = spark.read.option("header", "true").option("inferSchema", "true").csv("path/to/your/data.csv") data.show() ``` [^3] --- #### 3. 筛选数据 (Filtering) 可以通过条件表达式来过滤数据。例如，选择某一列满足特定条件的数据： ```python filtered_data = data.filter(data["age"] > 30) # 过滤年龄大于 30 的记录 filtered_data.show() ``` 或者使用 SQL 风格的字符串表示法： ```python filtered_data = data.filter("age > 30") filtered_data.show() ``` [^4] --- #### 4. Join 操作假设有两个 DataFrame：一个是用户表 (`users`)，另一个是交易表 (`transactions`)。可以通过共同键（如 `user_id`）将它们连接起来。 ```python # 假设 users 和 transactions 已经定义好 joined_data = users.join(transactions, on="user_id", how="inner") # 内部连接 joined_data.show() # 其他类型的连接 left_joined_data = users.join(transactions, on="user_id", how="left") # 左外连接 right_joined_data = users.join(transactions, on="user_id", how="right") # 右外连接 full_joined_data = users.join(transactions, on="user_id", how="outer") # 完全外部连接 ``` [^4] --- #### 5. 重命名列 (Renaming Columns) 如果需要更改某些列的名字，可以使用 `withColumnRenamed()` 方法。 ```python renamed_data = joined_data.withColumnRenamed("old_column_name", "new_column_name") renamed_data.show() ``` [^1] --- #### 6. 将 Pandas DataFrame 转换为 Spark DataFrame 当有现成的 Pandas DataFrame 并希望将其转换为 Spark DataFrame 时，可以直接调用 `createDataFrame()` 方法。 ```python import pandas as pd pd_df = pd.DataFrame({ 'name': ['Alice', 'Bob'], 'age': [25, 30] }) spark_df = spark.createDataFrame(pd_df) spark_df.show() ``` [^2] --- #### 7. 将 Spark DataFrame 转换回 Pandas DataFrame 同样支持反向操作，即将 Spark DataFrame 转换为 Pandas DataFrame。 ```python pd_converted_df = spark_df.toPandas() print(pd_converted_df) ``` [^2] --- #### 8. 将 DataFrame 输出至 FTP 服务器如果需要将结果保存到远程 FTP 服务器上，可利用第三方库完成此功能。 ```python output_df.write.format("com.springml.spark.sftp") \ .option("host", "sftpserver.com") \ .option("username", "myusername") \ .option("password", "mypassword") \ .option("fileType", "csv") \ .save("/remote/path/output.csv") ``` [^5] --- ### 总结以上介绍了如何使用 PySpark 对数据框进行基本的操作，包括但不限于创建、筛选、合并和重命名列等内容。这些技能对于日常的大规模数据分析任务非常实用。

阅读全文

相关推荐

Python大数据处理库 PySpark实战

Python3实战Spark大数据分析及调度-第1章 课程介绍.zip

Ngulik-Big-Data：与数据处理有关的提示和技巧

C++经典扫雷开发项目和安装包

松下电工数字压力传感器操作手册

冰激励振动理论图（FV）

对于PGA雷人使用，哈哈哈

【漂亮大气-PC端英文网站-整站模板】蓝色精美铁路钢铁企业网站(运行html文件可看效果).zip

墨迹天气_9.0894.02.apk

基于springboot+vue+mysql的疫苗发布和接种预约系统(源码+论文+开题报告).rar

C语言实现目录树比较工具：递归比较与MD5哈希优化

fake-pacs-server.zip

STM32单片机语音小狗源码

Huawei S6720EI-V200R011SPH033

25-07-10-20-40-11.mp4

yolov5使用入门教程.md

系统优化天卓峰会定制版

【漂亮大气-PC端英文网站整站模板】红色透明个性插画师作品展示WP主题网站(运行html文件可看效果).zip

前端开发 + Vue3.2/xlsx + 多格式文件预览组件（图片 / PDF/Excel）+ 企业级应用内文件在线查看

Ubuntu系统网络连接失败的解决方法详解

大家在看

VBA加密工具,将DVB文件错位加密

f1rs485 - host.zip

MFC多位图动画显示，可以暂停和开始

VNC4.2.9汉化注册版

S120西门子调试手册

最新推荐

C++经典扫雷开发项目和安装包

松下电工数字压力传感器操作手册

冰激励振动理论图（FV）

对于PGA雷人使用，哈哈哈

【漂亮大气-PC端英文网站-整站模板】蓝色精美铁路钢铁企业网站(运行html文件可看效果).zip

C#实现多功能画图板功能详解

超参数调优：锂电池预测模型优化的不传之秘

青龙面板怎么搭建

全面深入掌握应用密码学第二版精华

LSTM网络结构选择指南：让锂电池寿命预测更准确

Python3实战Spark大数据分析及调度-第1章课程介绍.zip