
spark
the_conquer_zzy
计算机科学与技术专业
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
实际经历的Spark应用场景一:小量数据清洗
前言: 由于是出于兴趣自学Spark的相关基础知识,工作中我身边也没有合适的场景必须需要使用Spark。比如数据量大到单机跑好几个小时还跑不完等等。 我对于Spark的运用也仅限于练习几个例子。所以我一直感受不到Spark的威力,也不清楚哪些场景适合Spark。 Spark的适用场景是什么? 这是我几个周以至于直到现在都在思考的问题,因为我工作中并用不上它……。(欢迎各位读者分享下自己经历过的Spark使用场景) 但是最近我在工作中遇到一个场景并且用Spark花了几分钟给解决了。 这让我有点高兴,因为我用S原创 2020-08-18 20:12:02 · 521 阅读 · 0 评论 -
Spark RDD Transformation 练习
在过去的几个月里,我断断续续写了Spark,Spark SQL, Spark Streaming相关的文章,自己也对Spark有了一个基本的认识。 但是仅仅这样不能算学会了spark。 回想过去一年里看过的书,只有那些写过博客的内容才印象深刻,其他的书甚至都忘了讲什么的。 再加上最近我一直在思考怎么才算掌握spark,用spark 能解决什么问题? 正所谓纸上得来终觉浅,绝知此事要躬行。所以我写这篇Spark RDD 练习,帮助我们加深对Spark知识的理解。 这篇博客涉及到的知识点有: 如何反转pair原创 2020-07-11 22:30:07 · 537 阅读 · 0 评论 -
Spark Streaming(二) Structed Streaming
Spark Streaming(二) Structed Streaming 本文详细介绍下Spark Streaming的第二代引擎Structed Streaming,包括Structed Streaming的概述,核心概念, Structed Streaming相关的应用等。 Structed Streaming 概述 Structed Streaming 有两个关键思想:以处理批量计算的方式对待流计算和与存储系统的事务集成,以提供端到端、只需一次的保证。 以处理批量计算的方式对待流计算 以处理批量原创 2020-06-06 22:12:56 · 600 阅读 · 0 评论 -
Spark Streaming(一) 基础知识介绍
本文介绍流处理的概念,流处理引擎环境和Apache Spark Streaming概述。 流处理 批数据处理是指通过固定的输入数据集运行计算逻辑,并在结束时产生结果。这意味着处理将在到达数据集末尾时停止。 相比之下,流处理是关于通过无界数据集运行计算逻辑,因此处理是连续且长时间运行的。 虽然批处理数据与流数据的区别主要在于有限性,但由于流数据的无界数据性质、实时数据的传入顺序、 数据到达的不同速率以及面对机器故障时对正确性和低延迟的期望,流数据处理要比批数据处理复杂得多,也更具挑战性。 流处理的挑战 流数据原创 2020-05-21 23:45:58 · 693 阅读 · 0 评论 -
SparkSQL 高级篇(一) 聚合操作
SparkSQL 高级篇(一) 聚合操作 聚合操作 聚合操作是大数据分析过程中一个常用的操作,用来分析汇总数据,或者生成汇总报告。 聚合通常需要对整个数据集或一个或多个列进行某种形式的分组,然后对每个组应用聚合函数,如求和、计数或求平均值。Spark提供了许多常用的聚合函数。这里介绍下基本的聚合函数和分组聚合操作函数。 首先创建一个用于demo的DataFrame val flight_summa...原创 2020-05-02 00:41:01 · 2045 阅读 · 0 评论 -
Spark SQL(二) DataFrames相关的Transformation操作
Spark SQL(二) DataFrames相关的Transformation操作 DataFrames是不可变的,且与其相关的Transformation操作和RDD的相关操作一样都是返回一个新的DataFrame. DataFrames Transformations select selectExpr filter/where distinct/dropDuplicates sort/o...原创 2020-05-02 00:40:25 · 675 阅读 · 0 评论 -
Spark SQL(一) 如何创建DataFrames
Spark SQL(一) 如何创建DataFrames Spark SQL包含两个主要的部分,第一部分是DataFrames和Datasets, 第二部分是Catalyst optimizer. DataFrames和Datasets是结构性API的展示,定义了操作结构化数据的高层次API, 而Catalyst optimizer则是在背后对处理数据的逻辑进行优化,以加速处理数据的速度。 结构化数...原创 2020-05-02 00:39:45 · 264 阅读 · 0 评论 -
Spark RDD(三) 键值对RDD相关的转换和动作操作
Spark RDD(三) 键值对RDD相关的转换和动作操作 本篇文章主要介绍和key/value pair RDD相关的转换(transformation)和动作(action)操作。 键值对RDD和普通RDD不同,在普通RDD中,一行数据代表一个单独的值,比如一个整数或者一个字符串。 而键值对RDD中一行数据是一个元组,在元组中第一个元素是key值,第二个元素值vaule值。 key和value...原创 2020-05-02 00:39:14 · 1572 阅读 · 0 评论 -
Spark RDD(二) RDD的相关行为(Action)操作
Spark RDD(二) RDD的相关行为(Action)操作 Action操作会真正触发转换逻辑(转换操作参见上一篇Spark RDD(一))。本文主要介绍常见的Action操作。 常见Action操作有以下9种: collect() count() first() take(n) reduce(func) takeSample(withReplacement, n, [seed]) take...原创 2020-05-02 00:38:45 · 516 阅读 · 0 评论 -
Spark RDD(一) RDD的创建和转化操作
Spark RDD(一) RDD的创建和转化操作 RDD 有几个特点 不可变 容错 并行数据结构 内存中计算 数据分区和存放 丰富的操作函数 RDD 的操作行为可以分为两类:转换和行为。 转换是一个延迟操作,返回的结果是另外一个RDD。 行为是另一种操作,会触发转换逻辑。行为的结果一般是返回一个结果,或者把结果写到磁盘。 创建RDD 有3种方式: (1) parallelize一个object...原创 2020-05-02 00:38:09 · 670 阅读 · 0 评论