一、两种方式
- 并行化本地集合(Driver Program)
- 引用加载外部存储系统(HDFS、Hive、HBase、Kafka、Elasticsearch)等数据集
二、并行化方式创建RDD
-
调用
SparkContext
的parallelize
方法并且传入已有的可迭代对象或者集合data = [1, 2, 3, 4, 5] distData = sc.parallelize(data)
-
再通过parallelize方法创建RDD的时候可以指定分区数量
distData = sc.parallelize(data, 5)
-
小文件读取:在实际项目中,有事往往处理的数据文件属于小文件,文件数量又很大,如果一个个文件读取为RDD的一个个分区,计算数据时耗时性能底下,使用SparkContext中提供:wholeTextFiles类,专门读取小文件数据
# 正常读取文件 resultRDD1 = sc.textFile("file:///export/data/ratings100/") # 调用wholeTextFiles读取小文件 resultRDD2 = sc.wholeTextFile("file:///export/data/ratings100/")
三、通过外部数据创建RDD
-
PySpark可以从Hadoop支持的任何存储源创建RDD,包括本地文件系统,HDFS,Cassandra,HBase,Amazon S3等
-
支持整个目录、多文件、通配符
-
支持压缩文件
rdd1 = sc.textFile('file:///root/tmp/word.txt')