
spark
vegetable chicken01
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark算子之foldByKey
在学习foldByKey这个算子的时候,发现网上好多文章的内容相互冲突,于是决定自己实践一边,以理解这个算子是怎么运行的。foldByKeydef foldByKey(zeroValue: V, numPartitions: Int)(func: (V, V) => V): RDD[(K, V)] = self.withScope { foldByKey(zeroValue, n...原创 2020-02-22 16:46:21 · 414 阅读 · 0 评论 -
Spark入门之基础知识(三)键值对操作
键值对RDD在实际生产中很常用,通常用来进行聚合计算,并且Spark对键值对RDD也提供了新的操作接口可以做更多操作,本文简单介绍一些键值对RDD的基础操作。如何创建Pair RDD1)键值对格式的数据可以直接读入,返回Pair RDD2)使用map()把一个普通的RDD转化为Pair RDD读取text文件,取每行文本的第一个单词做key,该行文本做valueval lines = c...原创 2019-12-19 18:15:53 · 455 阅读 · 0 评论 -
Spark入门之基础知识(二)RDD编程
什么是RDD弹性分布式数据集RDD是Spark的核心抽象。RDD其实就是分布式的元素集合,Spark中的操作创建、转化、或对RDD进行求值,Spark会自动将RDD的数据分发到集群上并并行执行。RDD是一个不可变的分布式对象集合,每个RDD都被分为多个分区,这些分区在集群中不同的节点上运行。”弹性“的解读:弹性意味着在任何时候都能进行重算,当某一部分数据丢失时,可以根据血缘关系将丢失的部分计...原创 2019-12-17 17:03:08 · 372 阅读 · 0 评论 -
Spark入门之基础知识(一)
什么是SparkSpark 是一个用来实现快速而通用的集群计算的平台。Spark的核心Spark 的核心是一个对由很多计算任务组成的、运行在多个工作机器或者一个计算集群上的应用 进行调度、分发、监控的计算引擎。Spark软件栈设计的优点1)软件栈中所有程序库和高级组件都可以从下层的改进中受益。2)运行整个软件栈的代价变小了。3)可以构建出无缝整合处理不同模型的应用。Spark 的...原创 2019-12-17 17:02:27 · 188 阅读 · 0 评论