Spark编程指南-快速开始_简述spark编写代码的步骤?-CSDN博客

本文链接：https://blog.csdn.net/qq_37129669/article/details/88427280

本教程引导读者快速了解Spark，通过Spark Shell进行交互式分析，介绍数据集操作和缓存功能。从下载Spark开始，演示如何在Shell中创建和操作数据集，强调了数据集在性能上的优势，并展示了如何缓存数据，最后讲解如何构建和运行独立的Spark应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本教程简要介绍了如何使用Spark。我们将首先通过Spark的交互式shell（在Python或Scala中）介绍API，然后展示如何使用Java，Scala和Python编写应用程序。

首先，从Spark网站下载Spark的打包版本。由于我们不会使用HDFS，您可以下载任何版本的Hadoop的软件包。

请注意，在Spark 2.0之前，Spark的主要编程接口是Resilient Distributed Dataset（RDD）。在Spark 2.0之后，RDD被数据集取代，数据集像RDD一样强类型，但在底层有更丰富的优化。仍然支持RDD接口，您可以在RDD编程指南中获得更详细的参考。但是，我们强烈建议您切换到使用数据集，它具有比RDD更好的性能。请参阅SQL编程指南以获取有关数据集的更多信息。

使用Spark Shell进行交互式分析

基础

在Spark包目录下执行进入Spark Shell

./bin/spark-shell

从源目录中的 README 文件中的文本创建一个新的 RDD

scala> val textFile = spark.read.textFile("README.md")
textFile: org.apache.spark.sql.Dataset[String] = [value: string]

直接从Dataset获取值，或者转换数据集以获取新值

数据集中item的数量

scala> textFile.count() 
res0: Long = 126

数据集中第一个item

scala> textFile.first
res2: String = # Apache Spark

Spark编程指南-快速开始

使用Spark Shell进行交互式分析

基础

有关数据集操作的更多信息