RDD的创建

一、两种方式

  • 并行化本地集合(Driver Program)
  • 引用加载外部存储系统(HDFS、Hive、HBase、Kafka、Elasticsearch)等数据集

二、并行化方式创建RDD

  • 调用SparkContextparallelize方法并且传入已有的可迭代对象或者集合

      data = [1, 2, 3, 4, 5]
      distData = sc.parallelize(data)
    
  • 再通过parallelize方法创建RDD的时候可以指定分区数量

      distData = sc.parallelize(data, 5)
    
  • 小文件读取:在实际项目中,有事往往处理的数据文件属于小文件,文件数量又很大,如果一个个文件读取为RDD的一个个分区,计算数据时耗时性能底下,使用SparkContext中提供:wholeTextFiles类,专门读取小文件数据

    # 正常读取文件
    resultRDD1 = sc.textFile("file:///export/data/ratings100/")
    # 调用wholeTextFiles读取小文件
    resultRDD2 = sc.wholeTextFile("file:///export/data/ratings100/")
    

三、通过外部数据创建RDD

  • PySpark可以从Hadoop支持的任何存储源创建RDD,包括本地文件系统,HDFS,Cassandra,HBase,Amazon S3等

  • 支持整个目录、多文件、通配符

  • 支持压缩文件

    rdd1 = sc.textFile('file:///root/tmp/word.txt')
    
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值