PySpark学习指南：从环境搭建到SparkSQL与SparkStreaming

DOCX文件

下载需积分: 0 | 14.91MB | 更新于2024-07-09 | 98 浏览量 | 举报收藏

立即下载

"09-SparkV1.2(PySpark)-LAPTOP-G48G0MSR.docx" 本文档详细介绍了如何学习和使用Apache Spark的PySpark接口，特别是针对Spark 2.3版本，该版本对Python的支持已经非常成熟。文档首先列出了课程安排，涵盖从环境搭建到综合项目实战的全过程，强调了理论与实践相结合的重要性。 1. **环境搭建** 在开始学习PySpark之前，需要安装和配置一系列的软件环境，包括： - JDK：安装Java Development Kit并将其添加到系统环境变量中，因为Spark是用Java编写的。 - Scala：安装Scala并添加环境变量，因为Spark的基础是Scala库。 - Hadoop：配置Hadoop环境变量，Spark可以与Hadoop生态系统集成。 - MAVEN：安装Maven，用于编译Spark源代码。 - Python：安装Python 3，并在源码下编译安装，以供PySpark使用。同时，需要确保安装了一些Python依赖。 2. **Spark源码编译与安装** - 下载Spark源码后，通过`./configure --prefix=xxx/xxx/xxx`指定Python的安装路径来配置源码。 - 添加Python到环境变量，以便Spark能识别。 - 使用Maven编译源码，遵循官方文档中的“Building Spark”指南。 - 编译完成后，解压缩生成的Spark二进制包，并通过`bin/spark-shell`启动Spark shell。 3. **Spark运行模式** - Spark支持多种运行模式，如本地模式（适用于开发）、YARN模式（适用于生产环境）等。在开发过程中，本地模式就足够了，但在实际生产环境中，YARN或Mesos等集群管理模式更常见。 4. **PySpark配置** - 若要使用PySpark，需确保`PYSPARK_PYTHON`环境变量指向Python 3解释器的路径。若启动时默认使用Python 2.7，可以通过设置`PYSPARK_PYTHON`环境变量来切换到Python 3。 5. **PySpark使用** - 启动PySpark shell通过运行`./pyspark`命令。 - 可以使用`./pyspark --help`查看所有可用的命令行选项。 6. **学习建议** - 推荐做笔记和查阅官方文档，以加深理解和记忆。 - 鼓励多尝试，独立思考，避免过分依赖他人的帮助。 7. **课程内容** - SparkCore核心：介绍RDD（弹性分布式数据集）的概念和编程模型。 - SparkCore进阶与调优：探讨高级RDD操作和性能优化策略。 - SparkSQL：学习如何使用Spark SQL进行结构化数据处理。 - SparkStreaming：理解Spark实时流处理框架的工作原理。 - Azkanban：可能是一个关于敏捷项目管理工具Azkanban的课程，包含基础、实战和进阶内容。 - 综合项目实战：通过实际项目练习，巩固所学知识。通过这个课程，学员将能够全面掌握PySpark的使用，从基本的RDD操作到复杂的SparkSQL查询，再到实时流处理，最终能应用到实际项目中去。

0!A 数据可以进行 ! 操作：内存、磁盘、内存C磁盘、多副本、序列化。

2.2. RDD 的创建方式

9811"1+1'1++;" !";"3!+ 

第一要务：创建 5

5 程序的主入口点，能够连接到  ： “ 集群 ” 8

、+、、 

使用 5 创建 、广播变量到集群。

在创建 5 之前还需要创建一个 G 对象

conf = SparkConf().setAppName(appName).setMaster(master)

sc = SparkContext(conf=conf)

2.2.1. Parallelized Collecons

从集合中创建 

data = [1, 2, 3, 4, 5]

distData = sc.parallelize(data)

从外部 External Datasets 创建 RDD 非常常用

2.2.2. External Datasets

从外部存储中创建 

、从本地文件读取数据

rdd = sc.textFile("file:///root/data/hello.txt")

2、从 HDFS 上读取数据

rdd = sc.textFile("hdfs://hadoop1:9000/data/hello.txt", 3)

注意点

（1） Spark will run one task for each partition of the cluster. 默认情况下一个 partition

开启一个 task 任务

（2）典型的一个 CPU 设置 2-4 个 Partitions

（3） @G3!"2 I2 3&!& 

L+ 我们上课是在单节点上的：一个节点，5 只要在这台机器上

有就行了。如果是  集群，比如  个节点，那么每个节点 都是从节点

的本地读取数据。

（）$GM2;&+!3 +I!3+!"5E!I33!"+!!I

 + 2I  + L!++  L E 5 I 3  3 5E!N1 1+!NI

5E!N1 1+!1H5NI+5E!N1 1+!1H"%N

（）>5E! +A+"3 G!"3 &G

AAG2:+G3IAAG&G2&

&!",:&+G3!*EI&33G!"3 &GAA&

!""J3/3JGLAA&

2.3. RDD 常用算子编程

9811"1+1'1++;" !";"3!+ 7++;A

2.3.1. RDD 常用操作

G A：L+G 5!A"

121"3&1+!A1O

A：3J3+!J" P3!" 3A+

31+311O

注意点：

（）所有的 G A 算子都是懒执行的，先记录逻辑处理关系，只有遇到 A

算子时才会真正进行计算。

（） $A3J3+!JL!+5"

剩余52页未读，继续阅读

小猫不会去楼兰捉虫

粉丝: 172

PySpark学习指南：从环境搭建到SparkSQL与SparkStreaming

电路图.pdsprj.LAPTOP-SNPOAHQK.zhangxin.workspace

android-x86-2.2-generic.iso

简单倒计时.pdsprj.LAPTOP-EREHSHIQ.95259.workspace

-Hackintosh-OMEN_by_HP_Laptop_15-ce0xx-master.zip

8位动态出生.pdsprj.LAPTOP-4HEQKAIR.86199.workspace

按键.pdsprj.LAPTOP-DCKT0BHR.xing.workspace

仿真.pdsprj.LAPTOP-ELHAF4C9.lenovo.workspace

实例38-倒计时交通灯控制系统设计.pdsprj.LAPTOP-U5VAPMNT.Administrator.workspace

流水灯.pdsprj.LAPTOP-8890N7HR.27712.workspace

no-verity-opt-encrypt-6.0_LAPTOP_

最新资源