本教程简要介绍了如何使用Spark。我们将首先通过Spark的交互式shell(在Python或Scala中)介绍API,然后展示如何使用Java,Scala和Python编写应用程序。
首先,从Spark网站下载Spark的打包版本 。由于我们不会使用HDFS,您可以下载任何版本的Hadoop的软件包。
请注意,在Spark 2.0之前,Spark的主要编程接口是Resilient Distributed Dataset(RDD)。在Spark 2.0之后,RDD被数据集取代,数据集像RDD一样强类型,但在底层有更丰富的优化。仍然支持RDD接口,您可以在RDD编程指南中获得更详细的参考。但是,我们强烈建议您切换到使用数据集,它具有比RDD更好的性能。请参阅SQL编程指南以获取有关数据集的更多信息。
使用Spark Shell进行交互式分析
基础
在Spark包目录下执行 进入Spark Shell
./bin/spark-shell
从源目录中的 README 文件中的文本创建一个新的 RDD
scala> val textFile = spark.read.textFile("README.md")
textFile: org.apache.spark.sql.Dataset[String] = [value: string]
直接从Dataset获取值,或者转换数据集以获取新值
数据集中item的数量
scala> textFile.count()
res0: Long = 126
数据集中第一个item
scala> textFile.first
res2: String = # Apache Spark